- TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。 本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文 参考訳(メタデータ) (Sat, 17 Aug 2024 11:40:10 GMT) - TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
- リポジトリはTableBench Homepage
投稿者: staka
Computer Vision Model Compression Techniques for Embedded Systems: A Survey
- Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。 本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。 初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (Thu, 15 Aug 2024 16:41:55 GMT) - CVを対象としたモデル圧縮技術のサーベイ
- リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象
Performance Law of Large Language Models
- Performance Law of Large Language Models [58.3]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (Mon, 19 Aug 2024 11:09:12 GMT) - 計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
- 面白いけどほんまかいな
- Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。 すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。 多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:57:25 GMT) - 計算能力という面では、推論側でのScalingという話も
- (この辺は良質な合成データとの関係性も気になる)
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
- mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.4]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。 具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文 参考訳(メタデータ) (Tue, 13 Aug 2024 08:10:32 GMT) - mPLUG-Owlのver 3
- リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl: The Powerful Multi-modal Large Language Model Family
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
- JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。 画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。 本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
論文 参考訳(メタデータ) (Wed, 21 Aug 2024 00:24:53 GMT) - JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。
Visual Agents as Fast and Slow Thinkers
- Visual Agents as Fast and Slow Thinkers [88.7]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。 モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (Fri, 16 Aug 2024 17:44:02 GMT) - かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
- 効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。
A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning
- A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.9]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。 このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文 参考訳(メタデータ) (Tue, 13 Aug 2024 17:49:00 GMT) - いわゆるMoE:Mixture-of-Expertsよりも広い概念であるMoErging(a new paradigm for decentralized model development that aims to recycle expert models trained asynchronously by distributed contributors.)のサーベイ
Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction
- Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction [35.5]
Kolmogorov-Arnold Represented Sparse Interaction Network (KarSein)を紹介する。 KarSeinは予測精度と計算効率の両方を最適化するように設計されている。 計算オーバーヘッドを最小限に抑えて、かなりの予測精度を達成する。
論文 参考訳(メタデータ) (Fri, 16 Aug 2024 12:51:52 GMT) - KANを拡張し、CTR予測に適用
- リポジトリはGitHub – Ancientshi/KarSein: KarSein for CTR predict
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
- Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (Tue, 20 Aug 2024 16:15:28 GMT) - 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
- 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
- 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。
HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3
先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。
- Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。 どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
論文 参考訳(メタデータ) (Thu, 22 Aug 2024 17:38:59 GMT) - TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。(データの差かもしれないが。。)
- リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)
- LLM Pruning and Distillation in Practice: The Minitron Approach [61.6]
Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。 1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。 このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
論文 参考訳(メタデータ) (Wed, 21 Aug 2024 17:38:48 GMT) - MInitronアプローチ(MINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp))での公開モデルの小規模化
- リポジトリはnvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face
- xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。 このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。 私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (Fri, 16 Aug 2024 17:57:01 GMT) - xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
- プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm