MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency 

  • MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.2]
    CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。 我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。 我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 18:59:46 GMT)
  • 「we introduce MMECoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes.」というベンチマーク
  • プロジェクトサイトはMME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency、LeaderboardトップがKimi k1.5でGPT-4oを超えているという驚きの結果。

Logical Reasoning in Large Language Models: A Survey

  • Logical Reasoning in Large Language Models: A Survey [17.1]
    大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。 LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。 このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 09:19:14 GMT)
  • 「This survey synthesizes the rapid advancements and persistent challenges in logical reasoning for large language models (LLMs).」と、急速に発展しているLLMにおける論理的推論に関するサーベイ

S*: Test Time Scaling for Code Generation 

The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models

  • The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.4]
    多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。 この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 16:25:16 GMT)
  • 多言語対応に関するサーベイ。
  • 日本語が割と健闘しているように見えるが、ほんとなんやろか。

Exploring Translation Mechanism of Large Language Models 

  • Exploring Translation Mechanism of Large Language Models [23.7]
    大規模言語モデル(LLM)は多言語翻訳タスクにおいて著しく成功している。 本研究では,計算成分の観点から,LLMの翻訳機構について検討する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 13:50:29 GMT)
  • LLMを用いた翻訳の解析。「translation is predominantly facilitated by a sparse subset of specialized attention heads (less than 5%), which extract source language, indicator, and positional features. MLPs subsequently integrate and process these features by transiting towards English-centric latent representations.」とのこと。

Judging the Judges: A Collection of LLM-Generated Relevance Judgements

  • Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.1]
    本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。 8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 17:40:32 GMT)
  • 「This paper benchmarks and reports on the results of a large-scale automatic relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where different relevance assessment approaches were proposed.」とのことでいろいろ検証なアプローチのまとめ。

A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective 

  • A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective [23.3]
    タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。 本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。 我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 22:34:50 GMT)
  • 「Tabular data-centric AI is evolving with RL-based optimization and generative modeling playing a key role in feature engineering.」とのこと。現状でも重要性が下がっていないテーブルデータに対してRL系の最適化や生成AI活用などをサーベイした論文。

不均衡データに対するサーベイも出ていた。こちらも過去から重要な視点。

  • A Comprehensive Survey on Imbalanced Data Learning [45.3]
    不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。 本調査は,様々な実世界のデータ形式を体系的に分析する。 さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 04:53:17 GMT)

The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? 

  • The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.6]
    本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。 数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 05:37:08 GMT)
  • 「CRESCENT as a simple yet effective framework – leveraging techniques of bait prompting, diversification, and consensus enhancement – for exploring the self-improvement problem of LLMs.」の提案、CoTなどに比べても高い性能を発揮とのこと。
  • 何らかの情報が増えているわけではないのでTTCにパワーを使っている効果が出ているという解釈で良いのだろうか。

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

  • Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.9]
    我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。 これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。 並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 07:21:11 GMT)
  • 必ず長い推論が性能向上につながっておらず「These results reveal that self-revision ability is a key factor in the effectiveness of sequential scaling for o1-like models.」だったとのこと。実験結果から「Shortest Majority Vote, which incorporate parallel scaling approaches with our insight on sequential scaling.」を提案。
  • 前半はThe Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks – arXiv最新論文の紹介を思いうかぶ。提案手法の再現実験などが気になるところ。

Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study 

  • Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.4]
    GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。 GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
    論文  参考訳(メタデータ)   (Fri, 07 Feb 2025 06:59:27 GMT)
  • 「Parallel-First Monolingual-Second (PFMS) data mixing strategy」を用い「To the best of our knowledge, GemmaX2-28-9B is the open model with the highest translation quality.」を主張する機械翻訳モデルの提案。データのレシピによって翻訳性能がかなり変わるのがとても参考になる。
  • リポジトリはGemmaX2 – a ModelSpace Collection