All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection 

  • All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.9]
    RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。 このベンチマークでは、2つの補完的なタスクが定義されている。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 18:18:28 GMT)
  • 金融の誤情報検知を目指したベンチマーク。「The benchmark defines two complementary tasks: reference-free misinformation detection and comparison-based diagnosis using paired original–perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative con- text is available, while reference-free settings expose significant weaknesses, including un- stable predictions and elevated invalid outputs.
    These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC-BENCH provides a structured testbed for studying reference-free reasoning and advancing more reliable financial misinformation detection in real-world settings.」
  • リポジトリはGitHub – lzw108/FMD: This is a continuous project on Financial Misinformation Detection (FMD).

FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading

  • FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading [39.8]
    The Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT)は、安定したトレーニングと適切なリスク管理を備えた新しいアンサンブルフレームワークである。 ファイナンシャルFTは6つの財務指標において12SOTAベースラインを上回り、リスクを40%以上削減する一方で、ランナーに比べて優れた収益性を実現している。
    論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 11:56:33 GMT)
  • 「This paper proposes FineFT, a novel three-stage ensemble RL ap- proach for handling high stochasticity and risk for unseen markets in futures trading. First, an ETD error is computed to update the learner selectively to improve data efficiency and performance. Then, the ensemble is back-tested on various dynamics modelled by VAEs. Finally, we utilize risk-aware heuristic routing to avoid po- tential loss caused by epistemic uncertainty. Extensive experiments show FineFT’s high profitability and strong risk management.」と凝ったアプローチ。リポジトリが公開されているのがありがたい。
  • リポジトリはGitHub – qinmoelei/FineFT_code_space

金融分野のLLMとしては下記も発表されていた。

  • QianfanHuijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs [30.7]
    本稿では、金融分野のLLMであるQianfan Huijinを紹介し、産業モデル強化のための一般化可能な多段階トレーニングパラダイムを提案する。 我々のアプローチは、知識基盤を統合するための財務コーパスの継続事前学習(CPT)から始まります。 金融SFTから始まり、ファイナンス推論RLとファイナンスエージェントRLに進み、ジェネラルRLで終了する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 16:10:51 GMT)
  • 複数ステージによる金融強化型LLM。クローズモデルのようだが、性能向上幅など参考になる。

Your AI, Not Your View: The Bias of LLMs in Investment Analysis 

  • Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.3]
    金融分野では、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、LLM(Large Language Models)は頻繁に知識紛争に直面している。 LLMに基づく投資分析において、確認バイアスの最初の定量的分析を行う。 われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 16:09:38 GMT)
  • LLMの投資に関するバイアスの定量的分析。
  • 「The results show that LLMs are not neutral decision-makers, with distinct preferences for certain financial factors depending on the model. While sector preferences varied significantly across models, showing no overall trend, a common bias towards large- size stocks and a consistent preference for a contrarian investment view over momentum were observed.」というバイアスがあるというのと、「While the models correctly reversed their decisions when presented only with counter-evidence, their flexibility sharply decreased in situations where supporting and counter-evidence were mixed and conflicting.」とかなり頑固なよう。
  • LLMに何かを判断させる際には細心の注意が必要。

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation 

  • MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.7]
    MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。 我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。 本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 22:01:49 GMT)
  • 金融ドメインのマルチモーダル、マルチリンガルベンチマーク。日本語データも含まれているよう。
  • リポジトリはGitHub – xueqingpeng/MultiFinBen、データはHuggingFaceで公開されている(TheFinAI/PolyFiQA-Easy · Datasets at Hugging Faceなど)

Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy 

  • Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
    大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 10:24:40 GMT)
  • LLMを使った信用リスク評価のサーベイ

FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning 

  • FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [43.7]
    FinChainは、検証可能なChain-of-Thought(CoT)金融推論のための最初のシンボリックベンチマークである。 FinChainはトピック毎に5つのパラメータ化されたテンプレートを提供する。 データセット上で30 LLMをベンチマークすると、最先端モデルでさえ改善の余地がかなりあることが分かります。
    論文  参考訳(メタデータ)   (Tue, 03 Jun 2025 06:44:42 GMT)
  • 金融分野、CoTのベンチマーク。「We also introduce ChainEval, a new metric for automatic evaluation of both final answers and intermediate reasoning. Bench- marking 30 LLMs on our dataset, we find that even state-of-the-art models have consider- able room for improvement in multi-step finan- cial reasoning.」と推論過程を評価するフレームワークも提案。
  • リポジトリはGitHub – mbzuai-nlp/finchain: A symbolic benchmark for verifiable chain-of-thought financial reasoning. Includes executable templates, 54 topics across 12 domains, and ChainEval metrics.

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

  • Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
    大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 16:15:28 GMT)
  • 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
  • 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
  • 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。

LLM用金融ベンチマークと金融特化型LLM

LLMでも金融分野の研究は多い。

  • FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
    FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。 我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
    論文  参考訳(メタデータ)   (Fri, 16 Feb 2024 05:05:12 GMT)
  • こちらはMistralをベースにしたLLM
  • ドメイン特化であれば7BでGPT-4と十分戦える点は面白い

Data-Centric Financial Large Language Models 

  • Data-Centric Financial Large Language Models [27.5]
    大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
    論文  参考訳(メタデータ)   (Sat, 7 Oct 2023 04:53:31 GMT)
  • 金融分野向けにLLMを活用するため、データの前処理を工夫・拡張(AAR: abductive augmentation reasoning )など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain+LLMより有効とのこと。
  • 「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

LLMを含む金融分野のNLP評価

  • Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.8]
    FinLMEvalは金融言語モデル評価のためのフレームワークである。 本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 11:43:15 GMT)
  • 複数の金融分野でのデータセットでBERTなどencoder系モデル+finetuning、LLMを比較、「Our results show that fine-tuning expert encoder-only models generally perform better than the decoder-only LLMs on the financial NLP tasks, and adding in-context demonstrations barely improves the results.」とのこと。前半はそうだろうという結果だが、後半はちょっと不思議。