MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation 

  • MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.7]
    MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。 我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。 本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 22:01:49 GMT)
  • 金融ドメインのマルチモーダル、マルチリンガルベンチマーク。日本語データも含まれているよう。
  • リポジトリはGitHub – xueqingpeng/MultiFinBen、データはHuggingFaceで公開されている(TheFinAI/PolyFiQA-Easy · Datasets at Hugging Faceなど)

Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy 

  • Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
    大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 10:24:40 GMT)
  • LLMを使った信用リスク評価のサーベイ

FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning 

  • FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [43.7]
    FinChainは、検証可能なChain-of-Thought(CoT)金融推論のための最初のシンボリックベンチマークである。 FinChainはトピック毎に5つのパラメータ化されたテンプレートを提供する。 データセット上で30 LLMをベンチマークすると、最先端モデルでさえ改善の余地がかなりあることが分かります。
    論文  参考訳(メタデータ)   (Tue, 03 Jun 2025 06:44:42 GMT)
  • 金融分野、CoTのベンチマーク。「We also introduce ChainEval, a new metric for automatic evaluation of both final answers and intermediate reasoning. Bench- marking 30 LLMs on our dataset, we find that even state-of-the-art models have consider- able room for improvement in multi-step finan- cial reasoning.」と推論過程を評価するフレームワークも提案。
  • リポジトリはGitHub – mbzuai-nlp/finchain: A symbolic benchmark for verifiable chain-of-thought financial reasoning. Includes executable templates, 54 topics across 12 domains, and ChainEval metrics.

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

  • Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
    大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 16:15:28 GMT)
  • 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
  • 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
  • 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。

LLM用金融ベンチマークと金融特化型LLM

LLMでも金融分野の研究は多い。

  • FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
    FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。 我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
    論文  参考訳(メタデータ)   (Fri, 16 Feb 2024 05:05:12 GMT)
  • こちらはMistralをベースにしたLLM
  • ドメイン特化であれば7BでGPT-4と十分戦える点は面白い

Data-Centric Financial Large Language Models 

  • Data-Centric Financial Large Language Models [27.5]
    大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
    論文  参考訳(メタデータ)   (Sat, 7 Oct 2023 04:53:31 GMT)
  • 金融分野向けにLLMを活用するため、データの前処理を工夫・拡張(AAR: abductive augmentation reasoning )など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain+LLMより有効とのこと。
  • 「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

LLMを含む金融分野のNLP評価

  • Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.8]
    FinLMEvalは金融言語モデル評価のためのフレームワークである。 本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 11:43:15 GMT)
  • 複数の金融分野でのデータセットでBERTなどencoder系モデル+finetuning、LLMを比較、「Our results show that fine-tuning expert encoder-only models generally perform better than the decoder-only LLMs on the financial NLP tasks, and adding in-context demonstrations barely improves the results.」とのこと。前半はそうだろうという結果だが、後半はちょっと不思議。

A Comprehensive Review on Financial Explainable AI

  • A Comprehensive Review on Financial Explainable AI [29.2]
    金融の文脈における深層学習モデルの説明可能性向上を目的とした手法の比較調査を行う。 説明可能なAI手法のコレクションは,その特性に応じて分類する。 我々は、説明可能なAI手法を採用する際の懸念と課題を、適切かつ重要と考えられる今後の方向性とともにレビューする。
    論文  参考訳(メタデータ)   (Thu, 21 Sep 2023 10:30:49 GMT)
  • 金融におけるXAIのサーベイ、状況を概観するのに良い。金融分野へのXAIは必要性もありかなり導入されている印象がある。

Fin-Fact

  • Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
    Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
    論文  参考訳(メタデータ)   (Fri, 15 Sep 2023 22:24:00 GMT)
  • 金融分野のファクトチェッキング用データセット&ベンチマーク
  • リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう

FinRL-Meta: Deep reinforcement learning用の金融市場データ処理・シミュレーション環境

  • FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8]
    FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。 まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。 
    論文  参考訳(メタデータ)   (Mon, 13 Dec 2021 16:03:37 GMT)