コンテンツへスキップ
- The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.3]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。 我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。 また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (Sat, 07 Jun 2025 22:42:29 GMT)
- LRMに対する分析。「Through extensive experimentation across diverse puzzles, we show that frontier LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counter- intuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget.」とのこと。
- 面白い検証結果。とはいえ、このような劣化はLLMの計算能力などでも指摘されてきた印象がある。直観的には現状のLLM/LRMはメタな解放に行きつけないという印象を持つが、コード生成などツール活用すれば多分解けるレベルであろうし解釈は悩ましいところ。
- 「We identified three distinct reasoning regimes: standard LLMs outperform LRMs at low complexity, LRMs excel at moderate complexity, and both collapse at high complexity.」は今の感覚としてはそうだろうと思う。
- 賛否はあるだろうが、下記のようにAnthropicのC. Opusから反論が来ているのが面白い。
- Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [0.0]
大規模推論モデル(LRM)は、特定の複雑性しきい値を超えた計画パズルについて「精度の崩壊」を示す。 これらの結果は,基本的推論失敗ではなく,実験的な設計上の制約を主に反映していることが実証された。
論文 参考訳(メタデータ) (Tue, 10 Jun 2025 21:16:53 GMT)
- 1st authorがAnthropicのC. Opus、Acknowledgmentsに「We thank Ryan Greenblatt, o3, Gemini 2.5, and all of the people who pointed out the parentheses mismatch in an earlier draft for helpful comments」と書かれている。
- Exploring Consciousness in LLMs: A Systematic Survey of Theories, Implementations, and Frontier Risks [46.9]
意識は人間の心の最も深い特徴の1つである。 大規模言語モデル(LLM)が前例のないペースで発展するにつれ、知性と意識に関する疑問がますます重要になっている。
論文 参考訳(メタデータ) (Mon, 26 May 2025 10:40:52 GMT)
- 「we systematically organize and synthesize existing research on LLM consciousness from both theoretical and empirical perspectives. Furthermore, we highlight potential frontier risks that conscious LLMs might introduce.」と意識に関するサーベイ。
- リポジトリがあり、論文リストが参考になる GitHub – OpenCausaLab/Awesome-LLM-Consciousness
- LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge [44.6]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な知性を示してきた。 これらのシステムは、評価結果を操作できる敵攻撃の影響を受けやすい。 LLMに基づく審査員による既存の評価手法は、しばしば断片的であり、包括的な評価のための統一された枠組みが欠如している。
論文 参考訳(メタデータ) (Wed, 11 Jun 2025 06:48:57 GMT)
- 「This work presents the first scalable and fully automated framework to evaluate the robustness and reliability of LLM-as-a-Judge systems across multiple attack scenarios. We systematically benchmarked state-of-the-art LLM-based evaluators under various adversarial settings and found that they are vulnerable to manipulation, often producing biased or incorrect judgments when exposed to crafted inputs.」とのこと。LLM-as-a-Judgeシステムの堅牢性を体系的に評価するために設計されたRobustJudgeというフレームワークで評価を行っている。
- リポジトリはGitHub – S3IC-Lab/RobustJudge
- Magistral [101.5]
私たちは、Mistralの最初の推論モデルであるMagistralと、当社独自のスケーラブルな強化学習パイプラインを紹介します。 テキストデータだけでRLが初期チェックポイントの能力のほとんどを維持していることを示す。 我々は、Mistral Medium 3上でRL単独で推論するために訓練されたMagistral Mediumを紹介し、Magistral Small(Apache 2.0)をオープンソース化した。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 17:22:37 GMT)
- MistralのLRM、「Eating the multimodal free lunch」は面白い。
- 24BのモデルはApache2ライセンスで公開されている。mistralai/Magistral-Small-2506 · Hugging Face
- NLP for Social Good: A Survey of Challenges, Opportunities, and Responsible Deployment [90.1]
自然言語処理の分野は、より意図と責任を持ったデプロイメントへのアプローチの必要性が高まっている、と私たちは考えています。 本稿では,NLPが社会的課題に対処する上で果たす役割について考察する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 13:14:44 GMT)
- 「We draw on insights from the United Nations Sustainable De- velopment Goals1 (UN SDGs) and the 2025 Global Economic Risks Report2 (GR) to provide a foun- dation for an interdisciplinary recontextualization of NLP, encouraging reflection on how language technologies intersect with today’s most pressing challenges.」
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.8]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。 本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (Mon, 02 Jun 2025 22:36:02 GMT)
- LAM SIMULATOR, a comprehensive frame- work designed for online exploration of agentic tasks with high-quality feedback
- SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model [21.8]
SridBenchは、科学フィギュア生成のための最初のベンチマークである。 これは13の自然科学とコンピュータ科学の分野にわたる主要な科学論文から1,120の事例で構成されている。 その結果、GPT-4o画像のような最上位モデルでさえ、人間のパフォーマンスに遅れがあることが判明した。
論文 参考訳(メタデータ) (Wed, 28 May 2025 08:51:01 GMT)
- 科学的な図の生成に関するベンチマーク作成とその検証。データは公開されていない?
- 「We found that, with the exception of GPT-4o-image, other image generation models, such as Gemini- 2.0-Flash, do not have any scientific mapping capabilities.」とのこと。。
- Pitfalls in Evaluating Language Model Forecasters [45.4]
我々はコミュニティとして、大きな言語モデルを評価するような結論に注意する必要があると論じている。 1) 時間的リークによる評価結果の信頼の難しさ,(2) 評価性能から実世界の予測への外挿の難しさ,の2つのカテゴリを識別する。
論文 参考訳(メタデータ) (Sat, 31 May 2025 21:49:17 GMT)
- LLMの評価に関する落とし穴をまとめた論文
- 「We identify two broad categories of issues: (1) difficulty in trusting evaluation results due to many forms of temporal leakage, and (2) difficulty in extrapolating from evaluation performance to real-world forecasting. Through systematic analysis and concrete examples from prior work, we demonstrate how evaluation flaws can raise concerns about current and future performance claims.」というまとめだが、評価は本当に難しい。