- Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.3]
金融分野では、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、LLM(Large Language Models)は頻繁に知識紛争に直面している。 LLMに基づく投資分析において、確認バイアスの最初の定量的分析を行う。 われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 16:09:38 GMT) - LLMの投資に関するバイアスの定量的分析。
- 「The results show that LLMs are not neutral decision-makers, with distinct preferences for certain financial factors depending on the model. While sector preferences varied significantly across models, showing no overall trend, a common bias towards large- size stocks and a consistent preference for a contrarian investment view over momentum were observed.」というバイアスがあるというのと、「While the models correctly reversed their decisions when presented only with counter-evidence, their flexibility sharply decreased in situations where supporting and counter-evidence were mixed and conflicting.」とかなり頑固なよう。
- LLMに何かを判断させる際には細心の注意が必要。
タグ: 金融
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation
- MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.7]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。 我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。 本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 22:01:49 GMT) - 金融ドメインのマルチモーダル、マルチリンガルベンチマーク。日本語データも含まれているよう。
- リポジトリはGitHub – xueqingpeng/MultiFinBen、データはHuggingFaceで公開されている(TheFinAI/PolyFiQA-Easy · Datasets at Hugging Faceなど)
Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy
- Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
論文 参考訳(メタデータ) (Wed, 04 Jun 2025 10:24:40 GMT) - LLMを使った信用リスク評価のサーベイ
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
- FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [43.7]
FinChainは、検証可能なChain-of-Thought(CoT)金融推論のための最初のシンボリックベンチマークである。 FinChainはトピック毎に5つのパラメータ化されたテンプレートを提供する。 データセット上で30 LLMをベンチマークすると、最先端モデルでさえ改善の余地がかなりあることが分かります。
論文 参考訳(メタデータ) (Tue, 03 Jun 2025 06:44:42 GMT) - 金融分野、CoTのベンチマーク。「We also introduce ChainEval, a new metric for automatic evaluation of both final answers and intermediate reasoning. Bench- marking 30 LLMs on our dataset, we find that even state-of-the-art models have consider- able room for improvement in multi-step finan- cial reasoning.」と推論過程を評価するフレームワークも提案。
- リポジトリはGitHub – mbzuai-nlp/finchain: A symbolic benchmark for verifiable chain-of-thought financial reasoning. Includes executable templates, 54 topics across 12 domains, and ChainEval metrics.
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
- Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (Tue, 20 Aug 2024 16:15:28 GMT) - 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
- 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
- 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。
LLM用金融ベンチマークと金融特化型LLM
LLMでも金融分野の研究は多い。
- The FinBen: An Holistic Financial Benchmark for Large Language Models [75.1]
FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。 FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。 GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLLMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 02:16:16 GMT) - 金融分野におけるLLMの評価用ベンチマーク、GPT-4はさすがの性能だがGeminiもよい線を行っていてタスクによっては優れている。Gemini Proの結果のようであり、Ultraが楽しみ
- リポジトリはThe-FinAI/PIXIU: This repository introduces PIXIU, an open-source resource featuring the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs. Our goal is to continually push forward the open-source development of financial artificial intelligence (AI). (github.com)
- FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。 我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文 参考訳(メタデータ) (Fri, 16 Feb 2024 05:05:12 GMT) - こちらはMistralをベースにしたLLM
- ドメイン特化であれば7BでGPT-4と十分戦える点は面白い
Data-Centric Financial Large Language Models
- Data-Centric Financial Large Language Models [27.5]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (Sat, 7 Oct 2023 04:53:31 GMT) - 金融分野向けにLLMを活用するため、データの前処理を工夫・拡張(AAR: abductive augmentation reasoning )など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain+LLMより有効とのこと。
- 「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。
LLMを含む金融分野のNLP評価
- Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.8]
FinLMEvalは金融言語モデル評価のためのフレームワークである。 本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 11:43:15 GMT) - 複数の金融分野でのデータセットでBERTなどencoder系モデル+finetuning、LLMを比較、「Our results show that fine-tuning expert encoder-only models generally perform better than the decoder-only LLMs on the financial NLP tasks, and adding in-context demonstrations barely improves the results.」とのこと。前半はそうだろうという結果だが、後半はちょっと不思議。
A Comprehensive Review on Financial Explainable AI
- A Comprehensive Review on Financial Explainable AI [29.2]
金融の文脈における深層学習モデルの説明可能性向上を目的とした手法の比較調査を行う。 説明可能なAI手法のコレクションは,その特性に応じて分類する。 我々は、説明可能なAI手法を採用する際の懸念と課題を、適切かつ重要と考えられる今後の方向性とともにレビューする。
論文 参考訳(メタデータ) (Thu, 21 Sep 2023 10:30:49 GMT) - 金融におけるXAIのサーベイ、状況を概観するのに良い。金融分野へのXAIは必要性もありかなり導入されている印象がある。
Fin-Fact
- Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
論文 参考訳(メタデータ) (Fri, 15 Sep 2023 22:24:00 GMT) - 金融分野のファクトチェッキング用データセット&ベンチマーク
- リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう