コンテンツへスキップ
- MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。 我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 15:59:20 GMT)
- 「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difficulty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
- プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation
- Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions [39.2]
検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。 本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。 データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
論文 参考訳(メタデータ) (Sat, 01 Mar 2025 14:15:00 GMT)
- マルチモーダルなsearch and recommendationを対象としたデータセット
- リポジトリはGitHub – RED-Search/Qilin: Resources and code for the Qilin dataset.
- Towards Best Practices for Open Datasets for LLM Training [21.4]
多くのAI企業は、著作権所有者の許可なく、データ上で大きな言語モデル(LLM)をトレーニングしています。 創造的なプロデューサーは、いくつかの著名な著作権訴訟を引き起こした。 データ情報を制限するこの傾向は、透明性、説明責任、革新を妨げることによって害をもたらす。
論文 参考訳(メタデータ) (Tue, 14 Jan 2025 17:18:05 GMT)
- 学習等に使用するデータセットを選ぶベストプラクティスの整理、「The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous.」とはあるが日本でもとても大事な内容。
- Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。 我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。 我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文 参考訳(メタデータ) (Tue, 24 Dec 2024 10:07:51 GMT)
- (o1自体は利用していないと言われているが)o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
- リポジトリはGitHub – HJYao00/Mulberry
- StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs [78.8]
StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。 StructTestが一般的な推論能力のよいプロキシであることを示す。
論文 参考訳(メタデータ) (Mon, 23 Dec 2024 22:08:40 GMT)
- 構造化出力のベンチマーク、「programmatically verifiable benchmark for evaluating instructionfollowing capabilities through structured outputs.」
- 現時点でデータは公開されていない・・・?
- LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。 既存の文書理解ベンチマークは少数のページしか処理できない。 半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文 参考訳(メタデータ) (Tue, 24 Dec 2024 13:39:32 GMT)
- 文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
- リポジトリはGitHub – dengc2023/LongDocURL
- FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.9]
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。 スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。 画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
論文 参考訳(メタデータ) (Tue, 10 Dec 2024 17:02:58 GMT)
- 視覚的な属性(color, lighting, focus and depth of field, artistic stroke, dynamics, rhythm, designのような)を分類したデータセットfine-grained visual attributes dataset (FiVA)の提案と、画像から視覚属性の抽出・適用を行う fine-grained visual attribute adaptation framework (FiVA-Adapter)の提案。
- プロジェクトサイトはFiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
- WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.8]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。 我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。 重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 23:36:23 GMT)
- 撤回された論文を集めた珍しいデータセット
- リポジトリはhttps://github.com/darpa-scify/withdrarxiv
- Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset [33.2]
精度とデータ量とのトレードオフを改善する方法を示します。 15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは、Llama 3.1 8Bモデルよりも優れている。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 17:28:50 GMT)
- RedStone同様、Common CrawlをうまくRefineする手法の報告。こちらはNDIVIAによるもの。「We propose a method for transforming English Common Crawl into a 6.3T token longhorizon pretraining dataset, consisting of 4.4T globally deduplicated original tokens and 1.9T synthetically generated tokens.」と合成データについて触れられているのも興味深い。
- プロジェクトサイトはNemotron-CC