arXiv – ページ 2 – arXiv最新論文の紹介

Self-Evolving GPT: A Lifelong Autonomous Experiential Learner

Self-Evolving GPT: A Lifelong Autonomous Experiential Learner [40.2]
大規模言語モデル(LLM)に基づく生涯の自律的経験学習フレームワークを設計する。自律的に学習し、経験の伝達と帰納を通じて経験を蓄積し、どのような種類の入力質問を分類し、どの蓄積された経験を雇用するかを選択する。 6つのNLPデータセットによる実験結果から,本フレームワークは各中間段階において確実に動作し,GPT-3.5およびGPT-4の性能を効果的に向上することが示された。
論文参考訳（メタデータ） (Fri, 12 Jul 2024 02:49:13 GMT)
自律的に学習、自己改善していけるフレームワークの提案。タスク固有の経験をデータとして蓄積していくタイプのよう
fine tuningを行うタイプの手法ではないためGPT-4などAPI経由でも活用可能。Self-ICLなど他の手法と比べ有効性を確認とのこと。

GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

MistralとNVIDIAが協力して開発した小型で強力なMistral NeMo（Mistral NeMo | Mistral AI | Frontier AI in your hands、mistralai/Mistral-Nemo-Base-2407 · Hugging Face）
AppleによるDCLM 7B（apple/DCLM-7B · Hugging Face＆関連：DataComp-LM: In search of the next generation of training sets for language models – arXiv最新論文の紹介 (devneko.jp)）
Qwen2についてのテクニカルレポート（Audio-Language含む）
長いコンテキストに対応したGranite

上記には要注目。公開モデルの動きも速い。

Qwen2 Technical Report [139.8]
Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 12:35:42 GMT)
GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.

Qwen2-Audio Technical Report [73.9]
本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 14:38:09 GMT)
「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.

Scaling Granite Code Models to 128K Context [37.3]
本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
論文参考訳（メタデータ） (Thu, 18 Jul 2024 17:46:02 GMT)
IBMのGraniteも128Kと長いコンテキストに対応
リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.7]
AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 11:26:07 GMT)
ChatBot Arenaの評価を再現する環境をAIで実現、「This paper introduces Arena Learning, a simulated offline chatbot arena that utilizes AI LLMs to bypass the manual and time-intensive cost typically associated with preparing the arena battle data, while preserving the core advantages of the arena-based evaluation and training.」、「Furthermore, the model trained iteratively on synthetic data generated by Arena Learning exhibits significant performance improvements using various training strategies.」とのこと。
自己改善、合成データ活用の文脈でも非常に興味深い。

AgentInstruct: Toward Generative Teaching with Agentic Flows [12.2]
我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
論文参考訳（メタデータ） (Wed, 03 Jul 2024 21:01:12 GMT)
上記とは異なりAgenticなデータ合成アプローチも有望。

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.1]
SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。 LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。 SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
論文参考訳（メタデータ） (Fri, 12 Jul 2024 06:34:21 GMT)
一般にLLMで扱いにくいスプレッドシートに対処するためのフレームワークの提案。
「structural-anchor-based extraction, invertedindex translation, data-format-aware aggregation」でMarkdownライクなテキストに変換するアプローチ。さらにはテーブル認識と境界識別を分けるChain of Spreadsheet を提案、ベンチマークでのSOTAを主張
マイクロソフトの論文で「Spreadsheets are characterized by their extensive two-dimensional grids, flexible layouts, and varied formatting options, which pose significant challenges for large language models (LLMs).」と書かれると複雑な気持ちになる。

Retrieval-Augmented Generation for Natural Language Processing: A Survey

Retrieval-Augmented Generation for Natural Language Processing: A Survey [25.1]
検索強化生成(RAG)は、外部知識データベースを利用して大きな言語モデルを拡張する。本稿では,RAGの重要技術,特に検索器と検索融合について概説する。 RAGは、自然言語処理のタスクや産業シナリオで使われる。
論文参考訳（メタデータ） (Thu, 18 Jul 2024 06:06:53 GMT)
実用上重要なRAGのサーベイ。
構成要素の選択肢が多く、整理された情報はとてもありがたい。

Retrieved In-Context Principles from Previous Mistakes

Retrieved In-Context Principles from Previous Mistakes [55.1]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 07:32:26 GMT)
「a teacher-student framework designed to prevent the student model from making previous mistakes.」というフレームワークの提案。学生モデルが犯したミスを教師モデルが分析し、従うべき原則を作っていくフレームワークを提案。様々なベンチマークで効果を確認とのこと。
潜在的なLeakageがないか気になるが、エージェント的動作の結果を「原則」にまとめて再利用可能にしていると考えれば効果がありそう。

Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity

Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.9]
このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
論文参考訳（メタデータ） (Tue, 25 Jun 2024 17:09:54 GMT)
「the largest publicly accessible dataset designed to advance AI for biodiversity applications.」を主張するデータセット。AI fot biodiversityという目的が面白い。
リポジトリはArboretum (baskargroup.github.io)

PartCraft

PartCraft: Crafting Creative Objects by Parts [128.3]
本稿では、ユーザが「選択」できることによって、生成的視覚AIにおける創造的制御を促進する。私たちは初めて、創造的な努力のために、視覚的概念をパーツごとに選択できるようにしました。選択された視覚概念を正確にキャプチャするきめ細かい生成。
論文参考訳（メタデータ） (Fri, 5 Jul 2024 15:53:04 GMT)
「Instead of text or sketch, we “select” desired parts to create an object.」というタイプの画像生成。パーツに注目して組み合わせることができるとなると用途は広そう。
リポジトリはGitHub – kamwoh/partcraft: PartCraft: Crafting Creative Objects by Parts (ECCV2024)

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 06:10:01 GMT)
モバイルエージェント向けベンチマーク
リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと（arXivへの公開時点では404）

MUSE: Machine Unlearning Six-Way Evaluation for Language Models

MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.8]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。総合的な機械学習評価ベンチマークであるMUSEを提案する。人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 23:47:29 GMT)
Machine unlearningに関するベンチマーク、「(1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests.」と多様なクライテリアを持つ。
リポジトリはMUSE (muse-bench.github.io)

2024年7月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31