Scaling Open-Ended Reasoning to Predict the Future 

  • Scaling Open-Ended Reasoning to Predict the Future [56.7]
    我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。 トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。 トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 18:59:51 GMT)
  • 「If trained at scale for forecasting world events, Large Language Models (LLMs) may enjoy structural advantages over humans: they can ingest and synthesize vast, heterogeneous corpora across thousands of topics; and update predictions rapidly as new information arrives. Just like language models now show superhuman reasoning on some exam-style math and coding problems (OpenAI, 2025), in the future, language model forecasters may be able to come up with possibilities that humans miss.」というモチベーションの研究。難しいタスクであり、Leakageの影響も懸念されるが、かなり慎重にデータを扱っている印象。
  • プロジェクトサイトはScaling Open-Ended Reasoning to Predict the Future、リポジトリはGitHub – OpenForecaster/scaling-forecasting-training: Codebase from our first release.

Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking 

  • Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking [1.1]
    本研究では,モデルカットオフ日を超えて発生した事象に関する実世界の質問に対して,モデルファミリの異なるモデルファミリで,予測性能がどう変化するかを検討する。 我々は,文脈,質問タイプ,外部知識が精度やキャリブレーションにどのように影響するか,事実的ニュースコンテキストの追加が信念の形成や失敗モードをどう修正するかを分析する。
    論文  参考訳(メタデータ)   (Sun, 23 Nov 2025 10:41:19 GMT)
  • LLMの予測能力の検証と失敗事例の分析、「Forecasting competence in LLMs is highly uneven, reflecting not only data coverage but the cognitive framing embed- ded in prompts. While we may expect adding recent news should improve forecasting accuracy, we find that sometimes it does while at other times it makes it worse because of definition drift, rumour anchoring and recency bias etc. emergent, and invite design of benchmarks that disentangle knowledge recall from probabilistic inference.」はまぁそうだろうと思う。

FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction 

  • FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [84.4]
    FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。 リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。 推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
    論文  参考訳(メタデータ)   (Sat, 16 Aug 2025 08:54:08 GMT)
  • 未来予測のためのライブベンチマーク。「we introduce FutureX, a dynamic and live evaluation benchmark specifically designed for LLM agents performing future prediction tasks. FutureX is built upon a semi-automated pipeline that continuously collects future-oriented questions from 195 diverse websites, curated from a pool of 2,008 sites covering areas such as politics, economics, technology, sports, healthcare, and more.」とドメインも広い。
  • 結果として「LLM agents still lag behind humans」ではあるものの、レベル2は人を上回っているエージェントがいるのが興味深いところ。(あとレベル分けは若干違和感がある。。。)
    • The Basic tier (Level 1) contains single-choice events with options fewer than 4.
    • The Wide Search tier (Level 2) comprises multi-choice events with several correct answers.
    •  The Deep Search tier (Level 3) contains open-ended events whose underlying facts are relatively stable (with low volatility).
    • The Super Agent tier (Level4) covers high-volatility, open-ended events.

SPARTAN: SPARse TrANsformer World model

  • SPARTAN: A Sparse Transformer Learning Local Causation [63.3]
    因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。 本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。 オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
    論文  参考訳(メタデータ)   (Mon, 11 Nov 2024 11:42:48 GMT)
  • 「Conceptually, we argue that in order to perform efficient adaptation, world models should be structured to reflect the underlying sparse causal structure of the observed dynamics, and that these structures should be local.」のもと、「we propose SPARTAN, a structured world model that jointly performs dynamics model learning and causal discovery.」とのこと。
  • Language Models as Causal Effect Generators [44.8]
    制御可能な因果構造を持つ大規模言語モデル(LLM)に基づくデータ生成のためのフレームワークを提案する。 我々は、任意の言語モデルと有向非巡回グラフ(DAG)をシーケンス駆動構造因果モデル(SD-SCM)に変換する手順を定義する。
    論文  参考訳(メタデータ)   (Tue, 12 Nov 2024 18:50:35 GMT)
  • こちらはLLM+DAGでsequence-driven structural causal modelを作るアプローチ

因果グラフ+LLMという話はとても興味深い。