FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction 

  • FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [84.4]
    FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。 リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。 推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
    論文  参考訳(メタデータ)   (Sat, 16 Aug 2025 08:54:08 GMT)
  • 未来予測のためのライブベンチマーク。「we introduce FutureX, a dynamic and live evaluation benchmark specifically designed for LLM agents performing future prediction tasks. FutureX is built upon a semi-automated pipeline that continuously collects future-oriented questions from 195 diverse websites, curated from a pool of 2,008 sites covering areas such as politics, economics, technology, sports, healthcare, and more.」とドメインも広い。
  • 結果として「LLM agents still lag behind humans」ではあるものの、レベル2は人を上回っているエージェントがいるのが興味深いところ。(あとレベル分けは若干違和感がある。。。)
    • The Basic tier (Level 1) contains single-choice events with options fewer than 4.
    • The Wide Search tier (Level 2) comprises multi-choice events with several correct answers.
    •  The Deep Search tier (Level 3) contains open-ended events whose underlying facts are relatively stable (with low volatility).
    • The Super Agent tier (Level4) covers high-volatility, open-ended events.

Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance 

  • Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.1]
    本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。 我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。 私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 09:42:56 GMT)
  • 「This paper offers a comprehensive overview of AI governance, addressing challenges across intrinsic security, derivative security, and social ethics.」とガバナンスについて概要がまとまった論文。リポジトリもあって良い感じ(だが、リポジトリの論文リストは更新中?)
  • リポジトリはGitHub – ZTianle/Awesome-AI-SG: Awesome papers and resources related to the AI Safety and Governance