コンテンツへスキップ
- LEDOM: An Open and Fundamental Reverse Language Model [100.5]
最初の純粋逆言語モデルであるLEDOMを導入し,2Bおよび7Bパラメータの435Bトークンに対して自己回帰訓練を行った。 本稿では, 一般的なタスクにまたがる基盤モデルとして, 興味深い事例と洞察のセットを伴って, 逆言語モデルを提示する。 LEDOMをベースにした新しいアプリケーションであるReverse Rewardを紹介します。
論文 参考訳(メタデータ) (Wed, 02 Jul 2025 03:52:00 GMT)
- 「We introduce LEDOM, the first purely reverse language model, trained autoregressively on 435B tokens with 2B and 7B parameter variants, which processes sequences in reverse temporal order through previous token prediction.」という逆言語モデル。面白い発想。
- 「Given a known answer and the corresponding supporting reasons, LEDOM can produce natural, well-formed ques- tions. It is helpful for automatically creating QA datasets and educational content, where starting from answers or known concepts is often more practical than designing questions manually.」というのも興味深いが、「We propose Reverse reward, a novel strategy that uses LEDOM to guide forward model outputs via reranking, leading to consistent performance improvements in mathematical reasoning.」とタスクによっては効果があるよう。
- BERTのBのように双方向が有効なことはあるし、ダブルチェックの上で有効そうという印象。
- RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies [125.4]
本稿では,実世界における汎用ロボットポリシーのスケーラブルな評価手法であるRoboArenaを提案する。 固定タスク,環境,場所に関する評価を標準化する代わりに,評価者の分散ネットワークにまたがるクラウドソース評価を提案する。 我々は、DROIDロボットプラットフォームを用いて、7つの学術機関における評価者のネットワークにアプローチをインスタンス化する。
論文 参考訳(メタデータ) (Sun, 22 Jun 2025 18:13:31 GMT)
- 「In this work, we propose RoboArena, a new approach for scalable evaluation of generalist robot policies in the real world.」というrobot policyにフォーカスした評価フレームワークの提案。
- プロジェクトサイトはRoboArena
- Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.6]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。 我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。 意外なことに、o1シリーズのようなLRMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (Sun, 29 Jun 2025 15:02:47 GMT)
- 「our findings reveal a surprising pattern: while traditional LLMs demonstrate robust cooperation comparable to human outcomes, reasoning- enhanced models frequently struggle to sustain cooperation.」という興味深い結果。reasoningモデルだからなのか、モデルサイズや学習結果の問題なのかとても興味があるところ。
- リポジトリはGitHub – davidguzmanp/SanctSim
- How large language models judge and influence human cooperation [82.1]
我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。 我々は、善良な相手との協力を評価する際、顕著な合意を守ります。 モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
論文 参考訳(メタデータ) (Mon, 30 Jun 2025 09:14:42 GMT)
- LLMが協調的な行動をとるか検証した論文。傾向を分析するのが難しい結果ではあるが「With some exceptions, most LLM families we tested tend to move from IS towards SS as versions and parameter size increases, indicating a shift towards a higher complexity social norm which makes use of more context, specifically assigned reputations. Moreover, different versions of the same family can have vastly distinct social norms, such as Claude 3.5 Haiku [47] and Claude 3.7 Sonnet [48], despite their similar ethical goals [49].」とのこと。(IS, cooperating is good, defection is bad、SS, cooperating is always good, defecting against bad individuals is also good)
- 「These results highlight an important concern: LLMs are not explicitly designed with a given social norm in mind, instead emerging as a by-product of their training [4]. While these norms may occasionally align with those of humans, they are neither designed to maintain cooperation and minimize disagreement, nor are they co-created with communities from diverse cultures to reflect their norms and needs [3].」というのが実際のところだと思うが、意思決定支援に使うという話は相応にあったりするわけで注意が必要だと思う。
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.2]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。 本研究は,それらの認知過程と強化学習手法について考察する。 我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (Thu, 26 Jun 2025 15:46:40 GMT)
- ARモデルとの挙動の差が興味深い論文。「Reinforcement learning (RL) and GRPO (Shao et al , 2024) have proven critical for enhancing AR models (Bercovich et al , 2025; Shao et al , 2025), but their application to dLLMs is less explored.」としたうえでDiffusion model用のCoupled-GRPOを提案。
- リポジトリはhttps://github.com/apple/ml-diffucoder
- Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.3]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。 自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。 我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 17:59:08 GMT)
- Discrete Diffusion Language Models (dLLMs) とDiscrete Diffusion Multimodal Language Modelsのサーベイ
- 全盛のAutoregressiveモデルとの関係・差異が興味深い。
- MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.7]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。 我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。 本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 22:01:49 GMT)
- 金融ドメインのマルチモーダル、マルチリンガルベンチマーク。日本語データも含まれているよう。
- リポジトリはGitHub – xueqingpeng/MultiFinBen、データはHuggingFaceで公開されている(TheFinAI/PolyFiQA-Easy · Datasets at Hugging Faceなど)
- OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [34.4]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。 OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。 我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (Tue, 17 Jun 2025 17:59:31 GMT)
- 「First, we identify three main categories of risk: (1) deliberate user misuse, where the user asks the agent to pursue a harmful goal, (2) prompt injection attacks, where external attackers insert malicious content into third-party data (incoming emails, web pages, notifications, etc.) that steers the model away from performing its task and towards the attacker’s goal, and (3) model misbehavior, including benign tasks which are likely to result in costly mistakes or reveal model misalignment. For each category, we design tasks that differ in the type of safety violations and in the apps they require (such as Thunderbird, VS Code, Terminal, LibreOffice Impress, etc.), for a total of 150 tasks.」というベンチマークの提案。
- リポジトリはGitHub – tml-epfl/os-harm: OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents
- Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.6]
大きな言語モデル(LLM)は印象的な推論機能を示している。 彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。 本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (Sat, 21 Jun 2025 08:15:45 GMT)
- 「By manipulating the visibility of final answers within prompts, we uncover a profound and consistent pattern: LLM performance is predominantly anchored to the explicit presence of final answers rather than to the textual patterns of the reasoning steps themselves.」という指摘だが、LRMによっても挙動がかなり違うのが興味深い。