コンテンツへスキップ
LLMでも金融分野の研究は多い。
- FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。 我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文 参考訳(メタデータ) (Fri, 16 Feb 2024 05:05:12 GMT)
- こちらはMistralをベースにしたLLM
- ドメイン特化であれば7BでGPT-4と十分戦える点は面白い
- Do Membership Inference Attacks Work on Large Language Models? [145.9]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。 我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 17:52:05 GMT)
- LLMへのメンバシップ推論攻撃は有効ではないのでは?という報告。「We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges.」と手厳しい。結論にも書いてあったが、こういった特性を理解せずに何かに応用するのは危険であると思う。
- リポジトリはiamgroot42/mimir: Python package for measuring memorization in LLMs (github.com)
- TL;DR Progress: Multi-faceted Literature Exploration in Text Summarization [37.9]
本稿では,ニューラルテキスト要約に関する文献を探索する新たなツールであるTL;DR Progressについて述べる。 テキスト要約アプローチのための包括的なアノテーションスキームに基づいて、514の論文を整理する。
論文 参考訳(メタデータ) (Sat, 10 Feb 2024 09:16:56 GMT)
- 要約関連の論文まとめサイトの提供。動作しているWEBシステムであり分類のやり方など実践的。
- プロジェクトサイトはTLDR Progress (tldr-progress.de)
- Large Language Models: A Survey [69.7]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (Fri, 9 Feb 2024 05:37:09 GMT)
- LLMのサーベイ。この分野のサーベイは多いが整理軸が様々で面白い。
- PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability [24.2]
これは$textbfpre$dictionと$textbfrea$soningと$textbfact$ionを統合したエージェントフレームワークです。 実験の結果,PreActは複雑なタスクを遂行する上でReActのアプローチよりも優れており,Reflexion法と組み合わせることでPreActを併用できることがわかった。
論文 参考訳(メタデータ) (Sun, 18 Feb 2024 10:15:38 GMT)
- 名前の通りReActの改善提案、 予測を作成し実績の違いから計画を修正させる、ようにActionとObservationにPredictを追加。ベンチマークで効果を確認とのこと。
- リポジトリはFu-Dayuan/PreAct (github.com)
- AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。 その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 15:41:22 GMT)
- audio-language なベンチマーク。Foundation benchmark(基礎的タスク、emotion recognition, acoustic scene classification, music QAなど)とChat benchmark(実世界を想定した会話応答)で構成される。評価はGPT-4ベース。
- 「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。
- Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations [13.1]
本稿では,構造化チェーン・オブ・シークレット (SCoT) を用いて,コンテントグラウンドによる質問応答会話を生成する手法を提案する。 実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。
論文 参考訳(メタデータ) (Mon, 19 Feb 2024 01:49:53 GMT)
- 「At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e g , content reading and utterance generation, can be executed in their own dedicated states.」
- 上記FormalLLMと組み合わさらないかなと思わなくもない。