FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning 

  • FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [43.7]
    FinChainは、検証可能なChain-of-Thought(CoT)金融推論のための最初のシンボリックベンチマークである。 FinChainはトピック毎に5つのパラメータ化されたテンプレートを提供する。 データセット上で30 LLMをベンチマークすると、最先端モデルでさえ改善の余地がかなりあることが分かります。
    論文  参考訳(メタデータ)   (Tue, 03 Jun 2025 06:44:42 GMT)
  • 金融分野、CoTのベンチマーク。「We also introduce ChainEval, a new metric for automatic evaluation of both final answers and intermediate reasoning. Bench- marking 30 LLMs on our dataset, we find that even state-of-the-art models have consider- able room for improvement in multi-step finan- cial reasoning.」と推論過程を評価するフレームワークも提案。
  • リポジトリはGitHub – mbzuai-nlp/finchain: A symbolic benchmark for verifiable chain-of-thought financial reasoning. Includes executable templates, 54 topics across 12 domains, and ChainEval metrics.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です