Performance Law of Large Language Models

  • Performance Law of Large Language Models [58.3]
    性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
    論文  参考訳(メタデータ)   (Mon, 19 Aug 2024 11:09:12 GMT)
  • 計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
  • 面白いけどほんまかいな
  • Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
    生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。 すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。 多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:57:25 GMT)
  • 計算能力という面では、推論側でのScalingという話も
  • (この辺は良質な合成データとの関係性も気になる)

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

  • JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
    離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。 画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。  本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 00:24:53 GMT)
  • JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。

Visual Agents as Fast and Slow Thinkers

  • Visual Agents as Fast and Slow Thinkers [88.7]
    本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。 モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:44:02 GMT)
  • かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
  • 効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。

A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning

  • A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.9]
    MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。 このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
    論文  参考訳(メタデータ)   (Tue, 13 Aug 2024 17:49:00 GMT)
  • いわゆるMoE:Mixture-of-Expertsよりも広い概念であるMoErging(a new paradigm for decentralized model development that aims to recycle expert models trained asynchronously by distributed contributors.)のサーベイ

Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction 

  • Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction [35.5]
    Kolmogorov-Arnold Represented Sparse Interaction Network (KarSein)を紹介する。 KarSeinは予測精度と計算効率の両方を最適化するように設計されている。 計算オーバーヘッドを最小限に抑えて、かなりの予測精度を達成する。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 12:51:52 GMT)
  • KANを拡張し、CTR予測に適用
  • リポジトリはGitHub – Ancientshi/KarSein: KarSein for CTR predict

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

  • Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
    大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 16:15:28 GMT)
  • 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
  • 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
  • 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

  • Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
    提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。 どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
    論文  参考訳(メタデータ)   (Thu, 22 Aug 2024 17:38:59 GMT)
  • TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。(データの差かもしれないが。。)
  • リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)
  • xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
    本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。 このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。 私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:57:01 GMT)
  • xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
  • プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? 

  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.5]
    我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。 実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。 任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 13:05:41 GMT)
  • Llama2、その日本語強化(日本語を用いた継続学習)バージョンであるSwallow、日本語・英語のバランスをとったコーパスで構築されたLLM-jpにおける多言語動作の比較。
  • 3モデルの挙動の違い、文化的側面がある新学期に関する問いの違いが面白い
  • 抽象度が進んだ数学や論理処理だと動作はどうなるんだろう?centricな言語が中心になるとして継続学習モデルだと日本語なんやろうか。

Automated Design of Agentic Systems

  • Automated Design of Agentic Systems [5.4]
    我々は,エージェントシステムの設計を自動生成することを目的とした,エージェントシステムの自動設計という新しい研究領域を定式化する。 我々のアルゴリズムは、最先端の手作りエージェントを大幅に上回る斬新なデザインでエージェントを段階的に発明できることが示される。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 21:59:23 GMT)
  • 「Automated Design of Agentic Systems (ADAS) involves using a search algorithm to discover agentic systems across a search space that optimize an evaluation function.」という分野、および、Meta Agent Searchという名前でLLMを用いて様々なブロックを組み合わせたコードを生成していく手法提案、有効性を確認とのこと。
  • 目標が定まっていればエージェントシステムのデザインも自動化していく可能性は当然あると思う。目標相当のモノの大きさが重要だが、それが解くべき実課題と同じレベルに達するのはいつになるのだろうか。(意外と早い気もしつつ)
  • 上記が実現するまではDifyやGitHub – modelscope/agentscope: Start building LLM-empowered multi-agent applications in an easier way.Very Large-Scale Multi-Agent Simulation in AgentScope  – arXiv最新論文の紹介 (devneko.jp))のようなもので対応することになるのだろうか。
  • プロジェクトサイトは、ADAS (shengranhu.com)、リポジトリはGitHub – ShengranHu/ADAS: Automated Design of Agentic Systems