コンテンツへスキップ
- A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.9]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。 このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文 参考訳(メタデータ) (Tue, 13 Aug 2024 17:49:00 GMT)
- いわゆるMoE:Mixture-of-Expertsよりも広い概念であるMoErging(a new paradigm for decentralized model development that aims to recycle expert models trained asynchronously by distributed contributors.)のサーベイ
- Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction [35.5]
Kolmogorov-Arnold Represented Sparse Interaction Network (KarSein)を紹介する。 KarSeinは予測精度と計算効率の両方を最適化するように設計されている。 計算オーバーヘッドを最小限に抑えて、かなりの予測精度を達成する。
論文 参考訳(メタデータ) (Fri, 16 Aug 2024 12:51:52 GMT)
- KANを拡張し、CTR予測に適用
- リポジトリはGitHub – Ancientshi/KarSein: KarSein for CTR predict
- Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (Tue, 20 Aug 2024 16:15:28 GMT)
- 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
- 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
- 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。