staka – ページ 117 – arXiv最新論文の紹介

Computer Vision Model Compression Techniques for Embedded Systems: A Survey

Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 16:41:55 GMT)
CVを対象としたモデル圧縮技術のサーベイ
リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象

Performance Law of Large Language Models

Performance Law of Large Language Models [58.3]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (Mon, 19 Aug 2024 11:09:12 GMT)
計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
面白いけどほんまかいな

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
論文参考訳（メタデータ） (Wed, 31 Jul 2024 17:57:25 GMT)
計算能力という面では、推論側でのScalingという話も
（この辺は良質な合成データとの関係性も気になる）

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.4]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文参考訳（メタデータ） (Tue, 13 Aug 2024 08:10:32 GMT)
mPLUG-Owlのver 3
リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl: The Powerful Multi-modal Large Language Model Family

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 00:24:53 GMT)
JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。

Visual Agents as Fast and Slow Thinkers

Visual Agents as Fast and Slow Thinkers [88.7]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 17:44:02 GMT)
かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。

A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning

A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.9]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文参考訳（メタデータ） (Tue, 13 Aug 2024 17:49:00 GMT)
いわゆるMoE：Mixture-of-Expertsよりも広い概念であるMoErging（a new paradigm for decentralized model development that aims to recycle expert models trained asynchronously by distributed contributors.）のサーベイ

Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction

Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction [35.5]
Kolmogorov-Arnold Represented Sparse Interaction Network (KarSein)を紹介する。 KarSeinは予測精度と計算効率の両方を最適化するように設計されている。計算オーバーヘッドを最小限に抑えて、かなりの予測精度を達成する。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 12:51:52 GMT)
KANを拡張し、CTR予測に適用
リポジトリはGitHub – Ancientshi/KarSein: KarSein for CTR predict

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 16:15:28 GMT)
金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
論文参考訳（メタデータ） (Thu, 22 Aug 2024 17:38:59 GMT)
TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。（データの差かもしれないが。。）
リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)

LLM Pruning and Distillation in Practice: The Minitron Approach [61.6]
Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。 1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 17:38:48 GMT)
MInitronアプローチ（MINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)）での公開モデルの小規模化
リポジトリはnvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 17:57:01 GMT)
xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.5]
我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 13:05:41 GMT)
Llama2、その日本語強化（日本語を用いた継続学習）バージョンであるSwallow、日本語・英語のバランスをとったコーパスで構築されたLLM-jpにおける多言語動作の比較。
３モデルの挙動の違い、文化的側面がある新学期に関する問いの違いが面白い
抽象度が進んだ数学や論理処理だと動作はどうなるんだろう？centricな言語が中心になるとして継続学習モデルだと日本語なんやろうか。

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28