コンテンツへスキップ
- Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.7]
AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。 ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
論文 参考訳(メタデータ) (Mon, 15 Jul 2024 11:26:07 GMT)
- ChatBot Arenaの評価を再現する環境をAIで実現、「This paper introduces Arena Learning, a simulated offline chatbot arena that utilizes AI LLMs to bypass the manual and time-intensive cost typically associated with preparing the arena battle data, while preserving the core advantages of the arena-based evaluation and training.」、「Furthermore, the model trained iteratively on synthetic data generated by Arena Learning exhibits significant performance improvements using various training strategies.」とのこと。
- 自己改善、合成データ活用の文脈でも非常に興味深い。
- AgentInstruct: Toward Generative Teaching with Agentic Flows [12.2]
我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。 本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。 テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
論文 参考訳(メタデータ) (Wed, 03 Jul 2024 21:01:12 GMT)
- 上記とは異なりAgenticなデータ合成アプローチも有望。
- SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.1]
SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。 LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。 SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
論文 参考訳(メタデータ) (Fri, 12 Jul 2024 06:34:21 GMT)
- 一般にLLMで扱いにくいスプレッドシートに対処するためのフレームワークの提案。
- 「structural-anchor-based extraction, invertedindex translation, data-format-aware aggregation」でMarkdownライクなテキストに変換するアプローチ。さらにはテーブル認識と境界識別を分けるChain of Spreadsheet を提案、ベンチマークでのSOTAを主張
- マイクロソフトの論文で「Spreadsheets are characterized by their extensive two-dimensional grids, flexible layouts, and varied formatting options, which pose significant challenges for large language models (LLMs).」と書かれると複雑な気持ちになる。
- Retrieval-Augmented Generation for Natural Language Processing: A Survey [25.1]
検索強化生成(RAG)は、外部知識データベースを利用して大きな言語モデルを拡張する。 本稿では,RAGの重要技術,特に検索器と検索融合について概説する。 RAGは、自然言語処理のタスクや産業シナリオで使われる。
論文 参考訳(メタデータ) (Thu, 18 Jul 2024 06:06:53 GMT)
- 実用上重要なRAGのサーベイ。
- 構成要素の選択肢が多く、整理された情報はとてもありがたい。
- Retrieved In-Context Principles from Previous Mistakes [55.1]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。 近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。 本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (Mon, 08 Jul 2024 07:32:26 GMT)
- 「a teacher-student framework designed to prevent the student model from making previous mistakes.」というフレームワークの提案。学生モデルが犯したミスを教師モデルが分析し、従うべき原則を作っていくフレームワークを提案。様々なベンチマークで効果を確認とのこと。
- 潜在的なLeakageがないか気になるが、エージェント的動作の結果を「原則」にまとめて再利用可能にしていると考えれば効果がありそう。
- Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.9]
このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。 このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 17:09:54 GMT)
- 「the largest publicly accessible dataset designed to advance AI for biodiversity applications.」を主張するデータセット。AI fot biodiversityという目的が面白い。
- リポジトリはArboretum (baskargroup.github.io)
- Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 06:10:01 GMT)
- モバイルエージェント向けベンチマーク
- リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと(arXivへの公開時点では404)
- MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.8]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。 総合的な機械学習評価ベンチマークであるMUSEを提案する。 人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (Mon, 08 Jul 2024 23:47:29 GMT)
- Machine unlearningに関するベンチマーク、「(1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests.」と多様なクライテリアを持つ。
- リポジトリはMUSE (muse-bench.github.io)
- TALENT: A Tabular Analytics and Learning Toolbox [24.9]
本稿では,表型手法の活用,分析,比較を行うためにTALENT (Tabular Analytics and LEarNing Toolbox) という汎用的なディープラーニングツールボックスを提案する。 TALENTは、様々なエンコーディングおよび正規化モジュールに関連する、20以上の深い表層予測手法の広範なコレクションを含んでいる。 本稿では,ツールボックスの設計と機能について述べるとともに,その実践的応用をいくつかのケーススタディを通じて説明し,ツールボックスをベースとした各種手法の性能について検討する。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 16:57:14 GMT)
- テーブルデータ分析のためのツールボックスでDeep系の手法が豊富に含まれている。
- リポジトリはGitHub – qile2000/LAMDA-TALENT: A comprehensive toolkit and benchmark for tabular data learning, featuring over 20 deep methods, more than 10 classical methods, and 300 diverse tabular datasets.
- やはりCatBoostやXGBはかなり優秀なのでは・・・