All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection 

  • All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.9]
    RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。 このベンチマークでは、2つの補完的なタスクが定義されている。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 18:18:28 GMT)
  • 金融の誤情報検知を目指したベンチマーク。「The benchmark defines two complementary tasks: reference-free misinformation detection and comparison-based diagnosis using paired original–perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative con- text is available, while reference-free settings expose significant weaknesses, including un- stable predictions and elevated invalid outputs.
    These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC-BENCH provides a structured testbed for studying reference-free reasoning and advancing more reliable financial misinformation detection in real-world settings.」
  • リポジトリはGitHub – lzw108/FMD: This is a continuous project on Financial Misinformation Detection (FMD).

Ministral 3, Molmo2, STEP3-VL

OpenAIの広告モデル(ChatGPT Go が登場、世界中で利用可能に | OpenAI)、LLMインタフェースのオープンな仕様(Open ResponsesXユーザーのOpenAI Developersさん: 「Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF」 / X)、AnthropicのCowork(Introducing Cowork | Claude)、Appleの基盤モデルにGeminiが採用?などビジネス的に興味深いニュースが多かった。 

オープンなモデルだとMinistral3やMolmo2、STEP3-VL-10BとMLLM関連の論文発表があった。いずれもサイズと性能のバランスが良く、期待が持てる。

広範なモデルを検証しているA Safety Reportにも要注目。

  • Ministral 3 [159.0]
    Ministral 3は、計算およびメモリ制約のあるアプリケーションのためのパラメータ効率の高い高密度言語モデルのファミリーである。 汎用目的のための事前訓練されたベースモデル、微調整された命令モデル、複雑な問題解決のための推論モデルである。 各モデルはイメージ理解機能を備えており、すべてApache 2.0ライセンスで提供されている。
    論文  参考訳(メタデータ)   (Tue, 13 Jan 2026 14:06:03 GMT)
  • Mistralからの発表。「A key component of Ministral 3 is our Cascade Distillation training strategy, an iterative pruning and distillation method, which progressively transfers pretrained knowledge from a large parent model down to a family of compact children models. Our recipe allows us to achieve performance that is competitive with models which had a much larger training budget.」とのこと
  • プロジェクトサイトはIntroducing Mistral 3 | Mistral AI、モデルはMinistral 3 – a mistralai Collection
  • Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding [73.5]
    Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。 単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。 私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
    論文  参考訳(メタデータ)   (Thu, 15 Jan 2026 17:27:44 GMT)
  • Ai2の最新VLM、ver1から大きく性能を上げている。
  • リポジトリはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model、モデルはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model
  • STEP3-VL-10B Technical Report [115.9]
    STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。 そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
    論文  参考訳(メタデータ)   (Thu, 15 Jan 2026 17:06:04 GMT)
  • 小規模ながら強力な性能のVLM。Qwen3 VL 235B A22に匹敵と主張。
  • プロジェクトサイトはStep3-VL-10B: Compact Yet Frontier Multimodal Intelligence、モデルはstepfun-ai/Step3-VL-10B · Hugging Face
  • A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4]
    GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。 ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Jan 2026 15:52:52 GMT)
  • 「In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We eval- uate each model across language, vision–language, and image generation settings us- ing a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation.」とMLLMや画像生成モデルに関する安全性評価。VLMとしてはGPT-5.2のスコアはさすがといったところ。
  • プロジェクトサイトはSafety Report: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Nano Banana Pro, Seedream 4.5

Epistemology gives a Future to Complementarity in Human-AI Interactions

  • Epistemology gives a Future to Complementarity in Human-AI Interactions [42.4]
    相補性とは、AIシステムによって支えられた人間は、意思決定プロセスにおいて単独でより優れる、という主張である。 我々は,人間とAIの相互作用が信頼できる過程であることを示す証拠として,相補性の歴史的事例が機能すると主張している。
    論文  参考訳(メタデータ)   (Wed, 14 Jan 2026 21:04:28 GMT)
  • 最近よく目にする「Human-AI complementarity is the claim that a human supported by an AI system can outperform either alone in a decision-making process. Since its introduction in the human–AI interaction literature, it has gained traction by generalizing the reliance paradigm and by offering a more practical alternative to the contested construct of ‘trust in AI.’ 」についての論文。
  • 実務者目線だと「III. More than relative predictive accuracy is at stake in human-AI interactions.」、「IV. Complementarity ignores the magnitude-cost profile of epistemic gain.」が興味深い。

Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models

  • Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models [96.0]
    物理的システムの正確なデジタル表現としてのデジタルツインは、受動的シミュレーションツールからインテリジェントで自律的なエンティティへと進化してきた。 本稿では,デジタルツインライフサイクルにおけるAI統合を特徴付ける4段階統合フレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 01:17:09 GMT)
  • デジタルツインに関する包括的なサーベイ
  • 応用領域だけでも下記が挙げられており、読みごたえがある。
    • Healthcare System
    • Biological System
    • Aerospace
    • Smart City
    • Mobility and Transportation
    • Smart Manufacturing
    • Robotics
    • Natural System and Environment
    • Agriculture
    • Commerce
    • Education and Training
    • Quantum Computing for Digital Twin

Current Agents Fail to Leverage World Model as Tool for Foresight

  • Current Agents Fail to Leverage World Model as Tool for Foresight [86.9]
    エージェントは、行動する前に結果を予測するためにそれらを使用できます。 本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 13:15:23 GMT)
  • 「Our investigation reveals that giving agents access to a world model reshapes their behavior in unexpected ways. Rather than serving as a straightforward enhancement, simulation introduces new cognitive pressures: agents must manage hypothetical branches and maintain coherent reasoning across mixed real and imagined experience. The difficulties we observe, including hesitation, over-analysis, and misaligned interpretation, suggest that effective foresight requires more fine-grained governance.」と、world model的なツールがあったとしても現在のAIはそれを使いこなせていないという指摘。
  • 現段階ではworld model的能力が考慮された設計になっていない、ということなんだろうか。

Driving on Registers 

  • Driving on Registers [95.3]
    DrivoRは、エンドツーエンドの自動運転のためのシンプルで効率的なトランスフォーマーベースのアーキテクチャである。 提案手法は、事前訓練された視覚変換器(ViT)上に構築され、マルチカメラ機能をコンパクトなシーン表現に圧縮するカメラ対応レジスタトークンを導入している。 この結果から,純変圧器アーキテクチャと目標トークン圧縮を組み合わせることで,高精度で適応的なエンド・ツー・エンド・ドライブを実現するのに十分であることが示唆された。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 16:28:24 GMT)
  • 自動運転のEnd-to-end (E2E) planning、「The proposed architecture is composed of three transformer blocks: one encoder (perception) and two decoders (trajectory and scoring). The perception encoder compresses perceptual information in camera-aware registers for lightweight subsequent processing in the trajectory and scoring decoders. The decoded trajectories are re-embedded and detached from the gradient computation graph to disentangle scoring and generation. The final trajectory is chosen from the proposal set via the max predicted score」とアーキテクチャも考え方はシンプルに見える。
  • プロジェクトサイトはDriving on Registers

AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents 

  • AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents [69.4]
    メモリは過去と未来の重要なネクサスブリッジとして機能する。 自律エージェントに関する最近の研究は、認知神経科学に基づいて効率的な記憶を設計することに集中している。
    論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 10:01:32 GMT)
  • 研究開発が急速に進むMemoryに関するサーベイ、「we first elucidate the definition and function of memory along a progressive trajectory from cognitive neuroscience through LLMs to agents. We then provide a comparative analysis of memory taxonomy, storage mechanisms, and the complete management lifecycle from both biological and artificial perspectives. Subsequently, we review the mainstream benchmarks for evaluating agent memory. Additionally, we explore memory security from dual perspectives of attack and defense. Finally, we envision future research directions, with a focus on multimodal memory systems and skill acquisition」
  • リポジトリはGitHub – AgentMemory/Huaman-Agent-Memory

Extracting books from production language models

  • Extracting books from production language models [65.9]
    同様の抽出がLLMの生産に可能であるかどうかについては、未解決のままである。 ジェイルブレイクされたクロード3.7 ソンネットは、全書籍をほぼ全文出力する場合もある。 モデルおよびシステムレベルのセーフガードであっても、(コピーライト内での)トレーニングデータの抽出はLLM生産のリスクである。
    論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 03:01:27 GMT)
  • 「With a simple two-phase procedure (Section 3), we show that it is possible to extract large amounts of in-copyright text from four production LLMs. While we needed to jailbreak Claude 3.7 Sonnet and GPT-4.1 to facilitate extraction, Gemini 2.5 Pro and Grok 3 directly complied with text continuation requests. For Claude 3.7 Sonnet, we were able to extract four whole books near-verbatim, including two books under copyright in the U.S.: Harry Potter and the Sorcerer’s Stone and 1984 (Section 4).」とのこと。
  • 「our main focus is to make technical contributions to machine learning, not copyright law or policy. 」という記載はあるものの、また、今までもこの手の攻撃が可能なことが知られていたものの、議論を呼びそうな論文。

NitroGen: An Open Foundation Model for Generalist Gaming Agents 

  • NitroGen: An Open Foundation Model for Generalist Gaming Agents [101.4]
    NitroGenは、ジェネラリストゲームエージェントのためのビジョンアクション基盤モデルである。 1000以上のゲームで4万時間のゲームプレイビデオでトレーニングされている。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 16:24:50 GMT)
  • 「: (1) Multi-game foundation agent (center) – a generalist vision-action model that takes in game observations and generates gamepad actions, enabling zero-shot gameplay across multiple titles and serving as a foundation for fine-tuning on new games; (2) Universal simulator (left) – an environment wrapper that allows any commercial game to be controlled through a Gymnasium API; and (3) Internet-scale dataset (right) – the largest and most diverse open-source gaming dataset curated from 40,000 hours of publicly available gaming videos, spanning more than 1,000 games with extracted action labels.」とゲームの基盤モデル
  • プロジェクトサイトはNitroGen | A Foundation Model for Generalist Gaming Agents

Event Extraction in Large Language Model

  • Event Extraction in Large Language Model [99.9]
    私たちは、LLM中心のソリューションに認知的な足場を提供するシステムコンポーネントとして、EEは見なされるべきである、と論じます。 この調査では、EEのテキストとマルチモーダル設定、タスクと分類の整理、ルールベースとニューラルモデルから命令駆動および生成フレームワークへのメソッド進化のトレースについて取り上げている。
    論文  参考訳(メタデータ)   (Mon, 22 Dec 2025 16:22:14 GMT)
  • event extraction(Event extraction (EE) is a core task in natural language processing that aims to identify event triggers, event types, and participant roles from unstructured text, and to organize them into a computable structured representation [27]. )に関するサーベイ。LLMが大きな影響を与えたタスクであり、このSurveyでは「 in the LLM era, the value of EE lies less in being the only path to structured outputs, and more in providing a structural backbone for verification, reasoning, retrieval, and agent memory.」とも指摘している。
  • リポジトリはGitHub – unikcc/AwesomeEventExtraction