arXiv最新論文の紹介

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文参考訳（メタデータ） (Sun, 14 Jul 2024 03:05:53 GMT)
Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer（個人名に対する質問への回答拒否）とContrastive Data Augmentation（個人に対する質問を拡張しデータ不足を解消）を用いたNAUF: Name-Aware Unlearning Framework で優れた性能を達成と報告。
リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”

Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models

Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.3]
多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 16:29:08 GMT)
複数のLLMをうまく使う方法のサーベイ
研究領域がとても広いことがよくわかる（そして絵がかわいい）

LLMBox: A Comprehensive Library for Large Language Models

LLMBox: A Comprehensive Library for Large Language Models [109.2]
本稿では,大規模言語モデル (LLM) の開発, 使用, 評価を容易にするために, 包括的で統一されたライブラリ LLMBox を提案する。このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 02:39:33 GMT)
LLM関連のもろもろを集めたライブラリ。必要なものが集まっていると便利というのと、GPUメモリの必要量などの情報がまとまっているのもありがたい。
リポジトリはGitHub – RUCAIBox/LLMBox: A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation.

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.7]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文参考訳（メタデータ） (Fri, 5 Jul 2024 14:16:47 GMT)
タイトルそのままGPT vs RETRO。

Case2Code: Learning Inductive Reasoning with Synthetic Data

Case2Code: Learning Inductive Reasoning with Synthetic Data [105.9]
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。まず、合成したCase2Codeタスクにおける代表LLMを評価し、LLMにおいてケース・ツー・コード誘導が困難であることを実証する。実験結果から,このような帰納的学習は,Case2Codeの性能だけでなく,学習用LLMの各種符号化能力の向上にも寄与することがわかった。
論文参考訳（メタデータ） (Wed, 17 Jul 2024 11:35:00 GMT)
解くのが難しい「Case2Code is a program synthesis task that targets the reconstruction of unknown programs based on observations of the program behaviors.」というタスクのため合成データを作成、一般的なLLMではスコアが低いことを検証。次に合成データを使ったfine tuningの有効性を示した論文。いまいち納得感が薄いが「We believe synthetic Case2Code is a promising way to continue improving the LLMs when human-generated data is exhausted.」というのが結論であればそれは示せているのか・・・？
リポジトリはGitHub – choosewhatulike/case2code

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 17:54:37 GMT)
マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう（ただしAutoMLなど過去から自動化を目指してきた業務ではある）
「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

BM25S: Orders of magnitude faster lexical search via eager sparse scoring

BM25S: Orders of magnitude faster lexical search via eager sparse scoring [0.0]
BM25Sは、NumpyとScipyのみに依存する、効率的なPythonベースのBM25の実装である。最も人気のあるPythonベースのフレームワークと比較して最大500倍のスピードアップを実現している。
論文参考訳（メタデータ） (Thu, 04 Jul 2024 04:01:05 GMT)
高速なBM25の実装
リポジトリはGitHub – xhluca/bm25s: Fast lexical search library implementing BM25 in Python using Scipy (on average 2x faster than Elasticsearch in single-threaded setting)

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.3]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (Sat, 13 Jul 2024 07:36:49 GMT)
fine tuning用のデータを拡張していくフレームワークの提案。間違った部分に注目するアプローチでLlama-2-7Bを用いて有効性を検証とのこと。
リポジトリはGitHub – SqueezeAILab/LLM2LLM: [ACL 2024] LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

Self-Evolving GPT: A Lifelong Autonomous Experiential Learner

Self-Evolving GPT: A Lifelong Autonomous Experiential Learner [40.2]
大規模言語モデル(LLM)に基づく生涯の自律的経験学習フレームワークを設計する。自律的に学習し、経験の伝達と帰納を通じて経験を蓄積し、どのような種類の入力質問を分類し、どの蓄積された経験を雇用するかを選択する。 6つのNLPデータセットによる実験結果から,本フレームワークは各中間段階において確実に動作し,GPT-3.5およびGPT-4の性能を効果的に向上することが示された。
論文参考訳（メタデータ） (Fri, 12 Jul 2024 02:49:13 GMT)
自律的に学習、自己改善していけるフレームワークの提案。タスク固有の経験をデータとして蓄積していくタイプのよう
fine tuningを行うタイプの手法ではないためGPT-4などAPI経由でも活用可能。Self-ICLなど他の手法と比べ有効性を確認とのこと。

GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

MistralとNVIDIAが協力して開発した小型で強力なMistral NeMo（Mistral NeMo | Mistral AI | Frontier AI in your hands、mistralai/Mistral-Nemo-Base-2407 · Hugging Face）
AppleによるDCLM 7B（apple/DCLM-7B · Hugging Face＆関連：DataComp-LM: In search of the next generation of training sets for language models – arXiv最新論文の紹介 (devneko.jp)）
Qwen2についてのテクニカルレポート（Audio-Language含む）
長いコンテキストに対応したGranite

上記には要注目。公開モデルの動きも速い。

Qwen2 Technical Report [139.8]
Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 12:35:42 GMT)
GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.

Qwen2-Audio Technical Report [73.9]
本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 14:38:09 GMT)
「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.

Scaling Granite Code Models to 128K Context [37.3]
本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
論文参考訳（メタデータ） (Thu, 18 Jul 2024 17:46:02 GMT)
IBMのGraniteも128Kと長いコンテキストに対応
リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30