arXiv最新論文の紹介

MuirBench

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 17:59:52 GMT)
マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.5]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 11:09:42 GMT)
LLMの性能にも依存していそうだが、「We compare various multilingual prompting strategies in NLP tasks, finding that translation remains a strong baseline even for LLMs.」とのこと。
データの偏り（英語に特化など）が激しい、基礎性能が高くない場合は特に機械翻訳が有効に思え、直観に反しない結果。タスクによっては機械翻訳が適していないというのもそうだろうと思う。

Claude 3.5 Sonnet, DeepSeek-Coder-V2, Context caching

先週もLLMのニュースは多かったが、Human Evalのスコアがとても高く高速、総合的にGPT-4超えを主張するClaude 3.5 Sonnetの発表は大きなニュースだった。オープンなモデルでも商用のフラグシップモデルを超えると主張するDeepSeek Coder V2が発表された。

Introducing Claude 3.5 Sonnet \ Anthropic

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence [43.6]
DeepSeek-Coder-V2は、コード固有のタスクでGPT4-Turboに匹敵するパフォーマンスを実現する、オープンソースのコード言語モデルである。 DeepSeek-Coder-V2はさらに6兆トークンを追加して、DeepSeek-V2の中間チェックポイントから事前トレーニングされている。標準的なベンチマーク評価では、GPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proといったクローズドソースモデルと比較して、DeepSeek-Coder-V2は優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 13:51:35 GMT)
強力な性能を主張する分野特化型の公開モデル。総パラメータ数236B、アクティブパラメータ21BのMoE構成
リポジトリはGitHub – deepseek-ai/DeepSeek-Coder-V2: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

その他、別軸ではあるが実装上重要な機能であるキャッシュについても注目が集まった。Gemini Pro, Flashともに使え様々な場面で有益な機能。

コンテキストキャッシュ | Google AI for Developers | Google for Developers

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 17:59:45 GMT)
MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
有効な場面はありそう。名前のインパクトがすごい。

DataComp-LM: In search of the next generation of training sets for language models

DataComp-LM: In search of the next generation of training sets for language models [193.3]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 17:42:57 GMT)
言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている（最小トラックは412Mパラメータ、8.2B学習用トークン（元データ469B）、学習用の計算量は2.0e19FLOPs、H100換算で26時間）が、それにしても参加するにも結構な環境が必要そう。。。
プロジェクトサイトはDataComp

関連するものとして下記論文も参考になる。

Data-Centric AI in the Age of Large Language Models [51.2]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 16:34:07 GMT)
LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。

The BiGGen Bench

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.3]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (Sun, 09 Jun 2024 12:30:30 GMT)
LLMを評価するためのベンチマークの提案、下記９カテゴリ、77タスクからなる。
- Instruction Following
- Grounding
- Planning
- Refinement
- Reasoning
- Tool Usage
- Theory of Mind
- Multilingual
- Safety
リポジトリはprometheus-eval/BiGGen-Bench at main · prometheus-eval/prometheus-eval · GitHub、データはprometheus-eval/BiGGen-Bench · Datasets at Hugging Face、リーダーボードはBiGGen Bench Leaderboard – a Hugging Face Space by prometheus-eval。カテゴリによっても順位が入れ替わるのが興味深い。

OmniCorpus、mOSCAR

マルチモーダル、マルチリンガルな巨大データセットが発表されていた。

OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [114.0]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 17:01:04 GMT)
「8.6 billion images and 1,696 billion text tokens」という巨大なマルチモーダル・マルチリンガルなデータセット
リポジトリはGitHub – OpenGVLab/OmniCorpus: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.8]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 00:13:32 GMT)
OSCARプロジェクトによるデータセット。「We mostly filter “not safe for work” (NSFW) content at the document level.」とのこと。
リポジトリはmOSCAR – OSCAR Documentation (oscar-project.github.io)

An Empirical Study of Mamba-based Language Models

An Empirical Study of Mamba-based Language Models [69.7]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 05:25:15 GMT)
Mambaの実験的検証。8B、3.5T tokensでmamba、mamba2、transformerを比較。「Our results show that while pure SSM-based models match or exceed Transformers on many tasks, both Mamba and Mamba-2 models lag behind Transformer models on tasks which require strong copying or in-context learning abilities (e g , five-shot MMLU, Phonebook Lookup) or long-context reasoning.」、「we find that the 8B-parameter Mamba2-Hybrid exceeds the 8B-parameter Transformer on all 12 standard tasks we evaluated (+2.65 points on average) and is predicted to be up to 8× faster when generating tokens at inference time.」との結果。今までの論文と比べて意外性はないが、包括的な検証はとても参考になる。ハイブリッド構成はとても有効な選択肢に見えた。
リポジトリはMegatron-LM/examples/mamba at ssm · NVIDIA/Megatron-LM · GitHub

Mixture-of-Agents Enhances Large Language Model Capabilities

Mixture-of-Agents Enhances Large Language Model Capabilities [34.7]
我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。 MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
論文参考訳（メタデータ） (Fri, 07 Jun 2024 07:04:10 GMT)
名前からしても強力そうなMixture-of-Agents、階層型で複数のLLMの結果を踏まえて解を求めていく動作のよう。オープンソースモデル（Qwen1.5 110B-Chat、Qwen1.5 72B-Chat、WizardLM-8x22B、 LLaMA-3-70B-Instruct 、 Mixtral-8x22B-v0.1、dbrx-instruct）の複合でGPT-4oを上回ったのは凄い。
リポジトリはGitHub – togethercomputer/MoA

A Survey of Transformer Enabled Time Series Synthesis

A Survey of Transformer Enabled Time Series Synthesis [38.9]
生成AIは画像と言語領域で多くの注目を集めている。本稿では,変換器,生成AI,時系列データの交点におけるこのギャップを明らかにする。レビューされた研究はアプローチの多様さを示しており、ドメインがもたらす問題に対する決定的な回答にはまだ収束していない。
論文参考訳（メタデータ） (Tue, 04 Jun 2024 13:52:42 GMT)
Transformerと時系列データに関するサーベイ
TNNでtransformer neural network はあまり見ない略し方

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31