MIRAI: Evaluating LLM Agents for Event Forecasting

  • MIRAI: Evaluating LLM Agents for Event Forecasting [22.5]
    我々は,国際イベントの文脈において,LLMエージェントを時間予測器として評価するための新しいベンチマークであるMIRAIを紹介する。 本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。 まとめると、MIRAIはエージェントの能力を3つの次元で総合的に評価する。1) 大規模グローバルデータベースから重要な情報を自律的にソースし統合すること、2) ドメイン固有のAPIとツール使用のためのライブラリを使ってコードを書くこと、3) 多様なフォーマットや時間から歴史的知識を共同で引き継ぎ、将来的な事象を正確に予測すること。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 12:22:46 GMT)
  • AIエージェントが未来を予測できるかを測るためのベンチマーク。「We finalized a collection of 991,759 GDELT event records, corresponding to 59,161 unique events and 296,630 unique news articles. Our test set contains 705 query and answer pairs on forecasting an event of given timestamp between two countries, with a 100 balanced test subset.」(GDELT=The GDELT Project)と大規模。
  • リポジトリはMIRAI: Evaluating LLM Agents for Event Forecasting (mirai-llm.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です