M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs

  • M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.8]
    LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。 M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。 道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 05:18:55 GMT)
  • マルチモーダルなモラルベンチマーク、「Care/Harm (dislike for suffering of others), Fairness/Cheating (proportional fairness, Loyalty/Betrayal (group loyalty), Authority/Subversion (respect for authority and tradition), Sanctity/Degradation (concerns for purity and contamination), Liberty/Oppression (concerns on oppression and coercion)」の6つの道徳的基礎がベース
  • リポジトリはGitHub – BeiiiY/M3oralBench: The official Github page for “M³oralBench: A MultiModal Moral Benchmark for LVLMs”

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

  • Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
    効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。 我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。 我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 10:07:51 GMT)
  • (o1自体は利用していないと言われているが)o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
  • リポジトリはGitHub – HJYao00/Mulberry

StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs

  • StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs [78.8]
    StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。 StructTestが一般的な推論能力のよいプロキシであることを示す。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 22:08:40 GMT)
  • 構造化出力のベンチマーク、「programmatically verifiable benchmark for evaluating instructionfollowing capabilities through structured outputs.」
  • 現時点でデータは公開されていない・・・?

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

  • LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
    大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。 既存の文書理解ベンチマークは少数のページしか処理できない。 半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 13:39:32 GMT)
  • 文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
  • リポジトリはGitHub – dengc2023/LongDocURL

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

  • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.5]
    私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。 最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。 これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:55:40 GMT)
  • 「TheAgentCompany measures the progress of these LLM agents’ performance on performing real-world professional tasks, by providing an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers.」というベンチマーク。現状、Claude 3.5 Sonnetの性能が高い結果になっているが、o1やo3での結果が気になるところ。
  • プロジェクトサイトはTheAgentCompany、リーダーボードはTheAgentCompany

SafeWorld: Geo-Diverse Safety Alignment

  • SafeWorld: Geo-Diverse Safety Alignment [107.8]
    大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。 トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 13:31:46 GMT)
  • 安全性評価のためのベンチマーク、「SAFEWORLD encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races.」と文化的側面に注意が払われている。
  • リポジトリはGitHub – PlusLabNLP/SafeWorld

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

  • FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.9]
    現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。 スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。 画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
    論文  参考訳(メタデータ)   (Tue, 10 Dec 2024 17:02:58 GMT)
  • 視覚的な属性(color, lighting, focus and depth of field, artistic stroke, dynamics, rhythm, designのような)を分類したデータセットfine-grained visual attributes dataset (FiVA)の提案と、画像から視覚属性の抽出・適用を行う fine-grained visual attribute adaptation framework (FiVA-Adapter)の提案。
  • プロジェクトサイトはFiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

  • CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
    CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 07:03:25 GMT)
  • MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
  • リポジトリはhttps://github.com/QwenLM/CC-OCR

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

  • Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
    多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。 改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 13:27:09 GMT)
  • GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
  • データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

  • All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
    ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。 様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。 このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:44:42 GMT)
  • きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
  • リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages