2024年8月 – ページ 2 – arXiv最新論文の紹介

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 16:15:28 GMT)
金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
論文参考訳（メタデータ） (Thu, 22 Aug 2024 17:38:59 GMT)
TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。（データの差かもしれないが。。）
リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)

LLM Pruning and Distillation in Practice: The Minitron Approach [61.6]
Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。 1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 17:38:48 GMT)
MInitronアプローチ（MINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)）での公開モデルの小規模化
リポジトリはnvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 17:57:01 GMT)
xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.5]
我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 13:05:41 GMT)
Llama2、その日本語強化（日本語を用いた継続学習）バージョンであるSwallow、日本語・英語のバランスをとったコーパスで構築されたLLM-jpにおける多言語動作の比較。
３モデルの挙動の違い、文化的側面がある新学期に関する問いの違いが面白い
抽象度が進んだ数学や論理処理だと動作はどうなるんだろう？centricな言語が中心になるとして継続学習モデルだと日本語なんやろうか。

Automated Design of Agentic Systems

Automated Design of Agentic Systems [5.4]
我々は,エージェントシステムの設計を自動生成することを目的とした,エージェントシステムの自動設計という新しい研究領域を定式化する。我々のアルゴリズムは、最先端の手作りエージェントを大幅に上回る斬新なデザインでエージェントを段階的に発明できることが示される。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 21:59:23 GMT)
「Automated Design of Agentic Systems (ADAS) involves using a search algorithm to discover agentic systems across a search space that optimize an evaluation function.」という分野、および、Meta Agent Searchという名前でLLMを用いて様々なブロックを組み合わせたコードを生成していく手法提案、有効性を確認とのこと。
目標が定まっていればエージェントシステムのデザインも自動化していく可能性は当然あると思う。目標相当のモノの大きさが重要だが、それが解くべき実課題と同じレベルに達するのはいつになるのだろうか。（意外と早い気もしつつ）
上記が実現するまではDifyやGitHub – modelscope/agentscope: Start building LLM-empowered multi-agent applications in an easier way.（Very Large-Scale Multi-Agent Simulation in AgentScope – arXiv最新論文の紹介 (devneko.jp)）のようなもので対応することになるのだろうか。
プロジェクトサイトは、ADAS (shengranhu.com)、リポジトリはGitHub – ShengranHu/ADAS: Automated Design of Agentic Systems

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.4]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文参考訳（メタデータ） (Wed, 14 Aug 2024 16:58:48 GMT)
最近、よく話題に上がるモデルマージに関するサーベイ

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.7]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 07:20:48 GMT)
RAGに関するモジュール型フレームワーク、「open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics.」とあるが、実利用でも抽象化しすぎて使いにくいことは多い印象…
リポジトリはGitHub – fate-ubw/RAGLAB: RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

Deep Generative Models in Robotics / Deep Reinforcement Learning for Robotics

AIとロボティクスの融合は重要な研究分野。近年だと生成AIとの融合が話題だが、深層強化学習に関しても研究が多い。この分野のサーベイはとてもありがたい。

Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.1]
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
論文参考訳（メタデータ） (Thu, 08 Aug 2024 11:34:31 GMT)
生成モデルとロボティクスに関するサーベイ。

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes [44.6]
強化学習(RL)は、広範囲のアプリケーションで非常に有望である。ロボットの問題は、物理世界との相互作用の複雑さとコストから起因して、RLの応用に根本的な困難をもたらす。この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。
論文参考訳（メタデータ） (Wed, 7 Aug 2024 04:35:38 GMT)
深層強化学習とロボティクスに関するサーベイ。

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.4]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 11:36:18 GMT)
ビデオ符号化に対するMLLMの適用、マルチモーダル性を活用した手法であり興味深い。実用化にはハードルがありそうだが、可能性を感じる結果。

Speech-MASSIVE

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.7]
Speech-MASSIVEは多言語音声言語理解データセットである。異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文参考訳（メタデータ） (Wed, 7 Aug 2024 16:55:28 GMT)
マルチリンガルな音声の言語理解データセット（spoken language understanding (SLU – the task of extracting semantic information from spoken utterances, which typically involves subtasks like intent detection and slot ﬁlling)）
リポジトリはGitHub – hlt-mt/Speech-MASSIVE: Speech-MASSIVE is a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus.
ライセンスはCC-BY-SA-4.0、日本語が入っていないのが残念。。。

Leveraging Web-Crawled Data for High-Quality Fine-Tuning

Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.2]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 08:12:52 GMT)
「Drawing on the intuition that rewriting data is comparatively simpler than performing intricate reasoning tasks for LLMs, we propose a method to augment the dataset by converting web-crawled data into high-quality ones.」という手法の提案。小規模なシードデータと大規模なクローリングデータのマッチングをとり、専用モデルを作るアプローチ。クリーニングが大変なのが伝わってくる。数学的な問題のバリエーションはとても多そうだけど、この方針でうまくいくのはなぜなのだろうか。。。（有名な問題の別解情報が使われているんだろうか）
リポジトリはGitHub – zhouj8553/Web_to_SFT: official code for the paper “Leveraging Web-Crawled Data for High-Quality Fine-Tuning”

2024年8月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31