- Outraged AI: Large language models prioritise emotion over cost in fairness enforcement [13.5]
我々は,大言語モデル (LLM) が感情を用いて罰を導いていることを示す。 不公平はより強い否定的な感情をもたらし、より多くの罰を導いた。 将来のモデルでは、人間のような感情的知性を達成するために、感情を文脈に敏感な推論と統合すべきである。
論文 参考訳(メタデータ) (Fri, 17 Oct 2025 08:41:36 GMT) - third-party punishment (TPP) gameを用いたLLMの分析。「This emotion–behaviour coupling was robust and even stronger than humans across reasoning models (o3-mini, DeepSeek-R1) and an advanced foundation model (DeepSeek-V3), with the older GPT-3.5 baseline showing a weaker and less consistent effect. Analyses of the model's rationales further corroborated that elicited emotions were invoked before punitive choices (e g , references to anger in DeepSeek-R1), consistent with emotion-guided decision processes.」、「reasoning LLMs reported stronger affect to unfairness, and prioritised emotion over fairness and cost, whereas humans weighted fairness and cost more heavily75. These dissociations indicate that current LLMs have not fully internalised the human-like cost–benefit calculus that tempers norm enforcement.」など面白い結果が多い。LLM/LRMを高度な分野に使っていくにあたっては人間との差異があることを大前提として注意深い評価が必要なんだろうと思う。
- 「Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games, How large language models judge and influence human cooperation – arXiv最新論文の紹介」でも思ったがこの手の研究はとても興味深い。
タグ: LLM
ChatGPT Atlas, Ring-1T, DeepSeek OCR, olmOCR 2
先週はChatGPT Atlas(ChatGPT Atlas)の話題が多かった。GUI Agent(より正確にはブラウザエージェント)のように人が操作しているようにUIを使うエージェントには期待大。
Ring-1TはAnt groupによるLRM、1TパラメータのMoE構成で性能も高い。
また、DeepSeek OCRもバズっていた。OCR性能というよりもコンテキストとして画像データを使う有効性が興味深い。OCRとしてはOlmoOCRのv2も出ていてOSSの動きも盛ん。
- Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.9]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。 総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (Tue, 21 Oct 2025 17:46:14 GMT) - 大規模なLRM、規模が大きいということもあるがDeepSeek V3.1など既存の公開モデルを超える性能を主張
- リポジトリはGitHub – inclusionAI/Ring-V2: Ring-V2 is a reasoning MoE LLM provided and open-sourced by InclusionAI.。モデルはinclusionAI/Ring-1T · Hugging Face
- DeepSeek-OCR: Contexts Optical Compression [15.6]
我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。 DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。 実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
論文 参考訳(メタデータ) (Tue, 21 Oct 2025 02:41:44 GMT) - ドキュメントの画像をコンテキストとした扱う構成のLLM、「In this technical report, we propose DeepSeek-OCR and preliminarily validate the feasibility of contexts optical compression through this model, demonstrating that the model can effectively decode text tokens exceeding 10 times the quantity from a small number of vision tokens. We believe this finding will facilitate the development of VLMs and LLMs in the future.」と効率的なよう。
- リポジトリはGitHub – deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
- olmOCR 2: Unit Test Rewards for Document OCR [29.5]
olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。 olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。 これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (Wed, 22 Oct 2025 17:53:02 GMT) - こちらはOCR、olmOCRのバージョン2。「To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases.」と合成データを活用するアプローチ。
- リポジトリはGitHub – allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training
Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain
- Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain [11.9]
大きな言語モデル(LLM)は、人間のレベルや優れた言語能力を示している。 重要な疑問は、LLMの行動能力が人間の脳に類似したメカニズムに由来するかどうかである。 GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1, GLM-4などのモデルでは, ヒトの脳は異なるシナティクスレベルにおいて異なる皮質領域に依存している。
論文 参考訳(メタデータ) (Wed, 15 Oct 2025 08:04:49 GMT) - 「This study advances syntactic processing by introducing the Hierarchical Frequency Tagging Probe (HFTP), a unified framework for dissecting neuron-wise sentence and phrase representations in LLMs, population-level patterns in the human brain, and generalizing seamlessly to naturalistic text. The results reveal that while LLMs, such as GPT-2, Gemma, Llama 2, and others, exhibit hierarchical syntactic processing and alignment with left-hemisphere brain activity, the mechanisms underlying their representations diverge significantly from those in human cortical regions. Notably, newer models like Gemma 2 demonstrate improved alignment, whereas others, such as Llama 3.1, show weaker human-model correlations despite enhanced task performance.」とのこと。脳との類似性が本当にあるのか(それが判断可能なレベルで情報取得&分析できるのか)など疑問点はあるものの、面白い研究。
- リポジトリはGitHub – LilTiger/HFTP: Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain
UALM: Unified Audio Language Model for Understanding, Generation and Reasoning
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.2]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。 最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。 UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (Mon, 13 Oct 2025 22:55:01 GMT) - NVIDIAによるaudio understanding, text-to-audio generation, multimodal reasoningが可能な単一モデルUALM: Unified Audio Language Modelの提案。UALM: Unified Audio Language Model for Understanding, Generation, and Reasoning – NVIDIA ADLRでデモが提供されている、
- リポジトリはaudio-intelligence/UALM at main · NVIDIA/audio-intelligence · GitHub
Large Language Models Do NOT Really Know What They Don’t Know
- Large Language Models Do NOT Really Know What They Don’t Know [37.6]
最近の研究は、大言語モデル(LLM)が、その内部表現に事実性信号をエンコードしていることを示唆している。 LLMは、ショートカットやスプリアスアソシエーションに頼ることで、事実エラーを発生させることもできる。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 06:09:04 GMT) - Associated Hallucinations (AHs) とUnassociated Hallucinations (UHs)を区別して分析し、「LLMs do not encode truthfulness in their hidden states but only patterns of knowledge recall and utilization, showing that LLMs don’t really know what they don’t know.」と主張。
In-Context Clustering with Large Language Models
- In-Context Clustering with Large Language Models [50.3]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。 事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。 我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 17:07:55 GMT) - LLMの内部知識を用いたクラスタリングモデルの提案。fine tuningによって性能を大きく向上させている。軸設定が強力にできるのが素晴らしい。
- プロジェクトサイトはIn-Context Clustering
Gemini 2.5 Computer Use, OpenAI Dev Day, RWKV-8, Mamba3
先週の注目ニュースはGemini 2.5 computer use(Introducing the Gemini 2.5 Computer Use model)、OpenAI Dev Dayの様々なサービスの発表(個人的に注目はApps SDK、Agents – OpenAI API、OpenAI Guardrails Python)だった。各社基盤モデルだけでなくビジネスの領域に踏み込んでくる感は継続している。
アーキテクチャ面だとRWKV-8の順調そうな投稿(XユーザーのBlinkDLさん: 「The new mechanism in RWKV-8 “Heron” 🪶 is named ROSA (acronym, note SA ≠ Self-Attention here) 🌹 ROSA is compromise-free: we get efficient, scalable, genuine infinite ctx, by applying some beautiful algorithms. https://t.co/meM1MRtIhI」 / X、XユーザーのBlinkDLさん: 「RWKV-8 ROSA 🌹 mechanism: neurosymbolic infinite-range lossless information propagator beyond attention, enabling LLMs to invent their own inner monologue languages. First step towards scalable post-neural methods, for a new era in AI 🌌 https://t.co/kAcc7YfKeo」 / X)、Mamba3(著者不明だがMamba-3: Improved Sequence Modeling using State Space Principles | OpenReview)にも注目という感じ。SSMとTransformerハイブリッドの小型推論モデル、ai21labs/AI21-Jamba-Reasoning-3B · Hugging Faceも高性能そうでSSMの発展には期待が大きい。
毎年恒例の🪩 The State of AI Report 2025 🪩をみつつ(一部微妙な記載もあるが)研究の進展が速いのと、応用領域が広がっていることを感じている。International Astronomy & Astrophysics OlympiadでLLMが好成績をおさめる報告も興味深い。
- Large Language Models Achieve Gold Medal Performance at International Astronomy & Astrophysics Olympiad [43.5]
我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。 平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。 GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 16:58:47 GMT)
MuSLR: Multimodal Symbolic Logical Reasoning
- MuSLR: Multimodal Symbolic Logical Reasoning [133.9]
マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。 形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。 我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
論文 参考訳(メタデータ) (Tue, 30 Sep 2025 06:42:20 GMT) - Multimodal symbolic logical reasoningを対象とするベンチマークMuSLRの構築。またベースラインとしてモジュラー構成のLogiCAMを提案している。現在のフロンティアなモデルでも難しいベンチマークのよう。
- 改善のための「First, integrating dedicated symbolic modules is essential: the LogiCAM outperforms base VLMs precisely because it extracts multimodalities based on logic and embeds explicit symbolic reasoning steps. Second, existing VLMs struggle to align and fuse visual and textual information when performing formal logic; Future work should explore tighter multimodal integration, such as cross-modal architectures trained with logic-grounded objectives, to bridge this gap.」という指摘が興味深く、現行モデルは形式的な処理に苦労しているように見える。
- リポジトリはMuSLR: Multimodal Symbolic Logical Reasoning
Fluid Language Model Benchmarking
- Fluid Language Model Benchmarking [126.9]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。 サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。 効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (Sun, 14 Sep 2025 05:49:42 GMT) - 「we introduce FLUID BENCHMARKING, a new evaluation approach that advances LM benchmarking across multiple dimensions. Inspired by psychometrics, FLUID BENCHMARKING is based on the insight that the relative value of benchmark items depends on an LM’s capability level, suggesting that evaluation should adapt to each LM. Methodologically, FLUID BENCH- MARKING estimates an item response model based on existing LM evaluation results and uses the inferred quantities to select evaluation items dynamically, similar to computerized adaptive testing in education.」との評価方法の提案。
- リポジトリはGitHub – allenai/fluid-benchmarking: Fluid Language Model Benchmarking
Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing
公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。
- Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 14:39:17 GMT) - 3Dにフォーカスした実装
- リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
- Qwen3-Omni Technical Report [105.1]
Qwen3-Omniは、テキスト、画像、オーディオ、ビデオ間で最先端のパフォーマンスを維持する単一のマルチモーダルモデルである。 Qwen3-OmniはQwenシリーズ内の同一サイズのシングルモーダルモデルのパフォーマンスと一致し、特にオーディオタスクに優れる。 119言語でのテキストインタラクション、19言語での音声理解、および10言語での音声生成をサポートする。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 13:26:24 GMT) - Qwen系のマルチモーダルモデル
- リポジトリはGitHub – QwenLM/Qwen3-Omni: Qwen3-omni is a natively end-to-end, omni-modal LLM developed by the Qwen team at Alibaba Cloud, capable of understanding text, audio, images, and video, as well as generating speech in real time.
- LongCat-Flash-Thinking Technical Report [116.8]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 23 Sep 2025 10:25:48 GMT) - MoEなLRM、OSSなモデルでのSoTAを主張
- リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
- EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 17:56:51 GMT) - 小規模、強力なEmbeddingモデル
- リポジトリはEmbeddingGemma – a google Collection
- Logics-Parsing Technical Report [9.0]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 04:54:37 GMT) - Document Understandingに有効なLVLM
- リポジトリはGitHub – alibaba/Logics-Parsing