OpenThoughts: Data Recipes for Reasoning Models

  • OpenThoughts: Data Recipes for Reasoning Models [215.2]
    OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。 OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。 OpenThinker3-7Bモデル。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 17:25:39 GMT)
  • LRM構築のためのオープンデータセット。データ拡張の方向性としても参考になる。
  • プロジェクトサイトはOpen Thoughts

PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding

  • PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding [114.5]
    画素レベルの部分接地のために設計された LMM ベンチマークである PartONOMY を紹介する。 我々はいくつかの部分中心LMMをトレーニングし、セグメント化トークンの代わりにスパンタグを使用する新しいセグメント化LMMであるPLUMを提案する。 我々の研究は、LMMにおけるきめ細かい基礎的な視覚的理解を実現するための新たな道を開く。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 06:03:56 GMT)
  • 「Unfortunately, Large Multimodal Models (LMMs), the backbones of today’s multimodal systems, lack strong part recognition abilities 」とのことで、それを検証するベンチマークと改善モデルPLUM: Part-Level Understanding LMMを提案。
  • リポジトリはGitHub – AnselBlume/partonomy: Repository for “Partonomy: Large Multimodal Models with Part-Level Visual Understanding”

Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes 

  • Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes [26.7]
    Ctrl-Crashはコントロール可能なカークラッシュビデオ生成モデルで、バウンディングボックス、クラッシュタイプ、初期画像フレームなどの信号を条件付けする。 提案手法は,入力の微妙な変化がクラッシュ結果の劇的な変化を引き起こすような,現実的なシナリオ生成を可能にする。
    論文  参考訳(メタデータ)   (Fri, 30 May 2025 21:04:38 GMT)
  • 「we introduce Ctrl-Crash, a controllable video diffusion framework for generating realistic crash videos from a single initial frame. Our method operates with inputs and outputs in pixel space, as opposed to using computer graphics primitives and explicit models of physics.」
  • 様々なシチュエーションを考える上では有効そうには思う
  • リポジトリはCtrl-Crash: Controllable Diffusion for Realistic Car Crashes

Quantitative LLM Judges

  • Quantitative LLM Judges [48.7]
    本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。 モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。 実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
    論文  参考訳(メタデータ)   (Tue, 03 Jun 2025 14:44:23 GMT)
  • 「We introduce quantitative judges, a family of LLM judges that disentangle qualitative reasoning from quantitative score prediction in LLM-as-a-judge. Our approach has two stages: the qualitative stage, where a frozen LLM judge generates an evaluation, and the quantitative stage, where these outputs are used by a lightweight model to predict a human score.」というアプローチによる定量評価
  • 現実的な設計方針に思える。

How much do language models memorize? 

  • How much do language models memorize? [104.2]
    我々は記憶を2つの構成要素に分けている:「文体記憶」と「文体一般化」である。 一般化を完全に排除すると、モデルキャパシティを見積もるトータル・メモリ化を計算することができる。 サイズが大きくなるデータセット上で言語モデルをトレーニングし、キャパシティが満たされるまでモデルを記憶し、その時点での「グルーキング」が始まり、モデルが一般化し始めるにつれて意図しない記憶が減少するのを観察する。
    論文  参考訳(メタデータ)   (Fri, 30 May 2025 17:34:03 GMT)
  • AGIを目指すうえでとても重要な記憶に関する報告、「We formally separate memorization into two components: unintended memorization, the information a model contains about a specific dataset, and generalization, the information a model contains about the true data-generation process. When we completely eliminate generalization, we can compute the total memorization, which provides an estimate of model capacity: our measurements estimate that GPT-style models have a capacity of approximately 3.6 bits per parameter.」とのこと。
  • 引用されているが、Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws  – arXiv最新論文の紹介など、この手の研究は本当に興味深い。

The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets 

  • The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets [12.1]
    消費者と商店双方がAIエージェントを承認し、交渉と取引を完全に自動化する将来のシナリオについて検討する。 我々の発見によると、AIによる取引は本質的に不均衡なゲームであり、異なるエージェントがユーザーに対して著しく異なる結果をもたらす。 ユーザーはAIエージェントにビジネス上の決定を委譲する際に注意を払わなければならない。
    論文  参考訳(メタデータ)   (Thu, 29 May 2025 17:41:39 GMT)
  • AI vs AIな検証。「In this paper, we designed an experimental framework to investigate potential issues and risks in Agent-to-Agent negotiations and transactions. Our analysis reveals that Agent-to-Agent negotiation and transaction is naturally an imbalanced game where users using less capable agents will face significant financial loss against stronger agents.」は予想されていることではあるが論文でも指摘されている通り格差拡大を招きかねない結果。
  • リポジトリはGitHub – ShenzheZhu/A2A-NT: Official code of “The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets”

Community Moderation and the New Epistemology of Fact Checking on Social Media

  • Community Moderation and the New Epistemology of Fact Checking on Social Media [124.3]
    ソーシャルメディアプラットフォームは伝統的に、誤解を招くコンテンツを識別しフラグを立てるために、独立した事実チェック組織に依存してきた。 X(元Twitter)とMetaは、クラウドソースのファクトチェックの独自のバージョンを立ち上げて、コミュニティ主導のコンテンツモデレーションに移行した。 主要なプラットフォーム間での誤情報検出の現在のアプローチについて検討し,コミュニティ主導型モデレーションの新たな役割を探求し,大規模クラウドチェックの約束と課題の両方を批判的に評価する。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 14:50:18 GMT)
  • コミュニティで現実に行われているファクトチェック(および類似のチェック)に関する調査・評価

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning 

  • Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.8]
    我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。 提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。 ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 08:54:14 GMT)
  • MLLMに対するPost training、マルチモーダルなLRM化につながる成果

From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

  • From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery [43.3]
    大規模言語モデル(LLM)は科学的発見のパラダイムシフトを触媒している。 この調査は、この急成長する分野を体系的に分析し、科学におけるLLMの役割の変化とエスカレーション能力に重点を置いている。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 15:41:32 GMT)
  • LLMを用いた科学的発見やそのサポートに関するサーベイ。「In scientific dis- covery, this convergence of advanced LLM capa- bilities and agentic functionalities is catalyzing a significant paradigm shift. This shift is poised not only to accelerate the research lifecycle but also to fundamentally alter the collaborative dynamics be- tween human researchers and artificial intelligence in the pursuit of knowledge.」と強力なLLMの登場により現実的になりつつある分野。
  • リポジトリはGitHub – HKUST-KnowComp/Awesome-LLM-Scientific-Discovery: From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery
  • When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [20.0]
    大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。 大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
    論文  参考訳(メタデータ)   (Sat, 17 May 2025 05:45:16 GMT)
  • 別方向から失敗例の分析も面白い。amphora/SPOT-MetaData · Datasets at Hugging Face

Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation 

  • Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.1]
    本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。 本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 11:56:59 GMT)
  • RAGのためのUncertainty Quantification (UQ)手法、FRANQ (Faithfulness-based Retrieval Augmented UNcertainty Quantifica- tion)の提案