- FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.9]
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。 スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。 画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
論文 参考訳(メタデータ) (Tue, 10 Dec 2024 17:02:58 GMT) - 視覚的な属性(color, lighting, focus and depth of field, artistic stroke, dynamics, rhythm, designのような)を分類したデータセットfine-grained visual attributes dataset (FiVA)の提案と、画像から視覚属性の抽出・適用を行う fine-grained visual attribute adaptation framework (FiVA-Adapter)の提案。
- プロジェクトサイトはFiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
タグ: ベンチマーク
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
- CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 07:03:25 GMT) - MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
- リポジトリはhttps://github.com/QwenLM/CC-OCR
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation
- Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。 改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 13:27:09 GMT) - GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
- データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。 様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。 このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 15:44:42 GMT) - きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
- リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.6]
VBenchは、”ビデオ生成品質”を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。 我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (Wed, 20 Nov 2024 17:54:41 GMT) - Video generationのためのベンチマーク
- リポジトリはGitHub – Vchitect/VBench: [CVPR2024 Highlight] VBench – We Evaluate Video Generation、リーダーボードも公開されているVBench Leaderboard – a Hugging Face Space by Vchitect
Dynamic-SUPERB Phase-2
- Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.8]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。 第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。 評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (Fri, 08 Nov 2024 06:33:22 GMT) - Dynamic-SUPERBのPhase2としてタスクが多様化・強化
- 現時点ではデータなどは公開されていないようだが、とても重要なベンチマーク
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.7]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。 我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。 本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 17:14:40 GMT) - MLLMの安全性を調べるフレームワークの提案。
- リポジトリはSafeBench
Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge
- Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.7]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。 CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
論文 参考訳(メタデータ) (Mon, 04 Nov 2024 04:41:12 GMT) - 「In CHAIC, the goal is for an embodied agent equipped with egocentric observations to assist a human who may be operating under physical constraints—e g , unable to reach high places or confined to a wheelchair—in performing common household or outdoor tasks as efficiently as possible.」というタスク・ベンチマークの提案。このようなチャレンジが現実的になってきたことにAIの急速な進化を感じる。
- リポジトリはGitHub – UMass-Foundation-Model/CHAIC: [NeurIPS D&B Track 2024] Source code for the paper “Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge”
Gemini-Exp-1114, Alpha Fold 3, Frontier Math
先週の大きなニュースは業界標準になりつつあるhttps://lmarena.ai/?leaderboardで、Geminiの最新バージョン(試験運用版モデル | Gemini API | Google AI for Developers)が一位をとったこと、Alpha Fold 3が公開されたこと(AlphaFold – Google DeepMind、GitHub – google-deepmind/alphafold3: AlphaFold 3 inference pipeline.)だったと思う。やはり、Google, DeepMindは凄い。
そのほか。極めて難しい数学的問題を集めたFrontierMathベンチマークの登場も興味深かった。もはや人でも相当の専門家以外は扱えない問題になっているがこれらをLeakなく解くモデルが現れるのはいつになるのだろうか。(意外と近い将来な気もしていて期待と不安がある)
- FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.1]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。 現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。 AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (Thu, 14 Nov 2024 16:26:03 GMT) - 「Current state-of-the-art AI models solve under 2% of problems」という極めてチャレンジングな問題。
WorkflowLLM
- WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.5]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。 最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (Fri, 08 Nov 2024 09:58:02 GMT) - エージェント開発において重要となるワークフロー生成に関するベンチマークの提案とLLMの構築。
- (1) Data Collection、(2) Query Expansion、(3) Workflow Generation、合成データを用いたWorkflowBenchの作成、fine-tuneによる WorkflowLlamaの構築と合成データを併用する一般的な手順ではあるが、GPT-4o w/ICLを完全にoutperformしているのが興味深い。
- リポジトリはGitHub – OpenBMB/WorkflowLLM