arXiv – ページ 26 – arXiv最新論文の紹介

Knowledge Injection via Prompt Distillation

Knowledge Injection via Prompt Distillation [48.7]
本稿では,新しい知識を学習するための新しい微調整手法を提案し,RAGの性能に到達できることを示す。提案手法は, 急速蒸留と呼ばれる自己蒸留法に基づいている。
論文参考訳（メタデータ） (Thu, 19 Dec 2024 15:44:01 GMT)
LLMにない知識を用いる場合はRAGを利用することが多いが、それと同様の性能を発揮できるfine tuning手法、 prompt distillation の提案。RAGと組み合わせることも可能とのこと。

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.9]
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
論文参考訳（メタデータ） (Tue, 10 Dec 2024 17:02:58 GMT)
視覚的な属性（color, lighting, focus and depth of field, artistic stroke, dynamics, rhythm, designのような）を分類したデータセットfine-grained visual attributes dataset (FiVA)の提案と、画像から視覚属性の抽出・適用を行う fine-grained visual attribute adaptation framework (FiVA-Adapter)の提案。
プロジェクトサイトはFiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

A Survey on LLM Inference-Time Self-Improvement

A Survey on LLM Inference-Time Self-Improvement [15.0]
近年,テスト時の計算量の増加による推論向上技術が注目されている。本稿では,最近の研究を包括的にレビューし,詳細な分類学に貢献し,課題と限界について議論する。
論文参考訳（メタデータ） (Wed, 18 Dec 2024 21:37:07 GMT)
最近要注目（？）のInference time self improvementのサーベイ。「We classify these methods into three categories: Independent Self-Improvement, which operates independently; Context-Aware Self-Improvement, which leverages external support (i.e. context and datastore retrieval); and Model-Aided Self-Improvement, which relies on external models for collaboration.」という軸で整理。
リポジトリはGitHub – dongxiangjue/Awesome-LLM-Self-Improvement: A curated list of awesome LLM Inference-Time Self-Improvement (ITSI, pronounced “itsy”) papers from our recent survey: A Survey on Large Language Model Inference-Time Self-Improvement.

OpenAI o3, Gemini 2.0 Flash Thinking, Genesis, Modern BERT

先週の大きなニュースはOpenAI o3でFrontierMath、ARC-AGI、SWE-benchなど難しいベンチマークで驚異的な性能を出している。12 Days of OpenAIは興味深い発表が多く、一方でAGIと言い切れるほどのものはなく、また、動画生成など分野によっては競合（GitHub – Tencent/Tencent-Hunyuan-Largeなど）の猛追も印象的だった。

12 Days of OpenAI | OpenAI
OpenAIの「12 Days」まとめ – ITmedia NEWS

GoogleもGemini 2.0 Flash Thinkingを発表（Gemini 2.0 Flash の思考モード | Gemini API | Google AI for Developers）、OpenAI o3の性能にも迫っていきそうな雰囲気を感じる。OSS界隈でもo3を目指す動きが盛り上がっていて期待できそう。

AGIを目指すとすると、推論（思考）性能はタスクによるとはいえかなり汎用的に人間（以上）レベルを達成できている感じで、今後は別機能（記憶とか自己改善とかEmbodiedとか）のインテグレーションがカギになりそう。Embodied AIに関連して先週はシミュレーション環境であるGenesisも話題になっていた。

華々しい発表ではなかったかもしれないがFinally, a Replacement for BERT: Introducing ModernBERTも重要な成果。decoder only全盛という感じではあるが、実務タスクを解く場合、BERT系列の選択肢は持っておきたいところ。

Byte Latent Transformer: Patches Scale Better Than Tokens

Byte Latent Transformer: Patches Scale Better Than Tokens [101.1]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文参考訳（メタデータ） (Fri, 13 Dec 2024 05:33:32 GMT)
バイト単位のTransformerは様々提案されてきたが、大規模なモデル構築は計算量の点で厳しかった。本件では「To efficiently allocate compute, we propose a dynamic, learnable method for grouping bytes into patches (§2) and a new model architecture that mixes byte and patch information.」という手法を提案。「Overall, for fixed inference costs, BLT shows significantly better scaling than tokenization-based models, by simultaneously growing both patch and model size.」とのこと。
リポジトリはGitHub – facebookresearch/blt: Code for BLT research paper

Language Models as Continuous Self-Evolving Data Engineers

Language Models as Continuous Self-Evolving Data Engineers [31.9]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。本稿では, LLM がデータの自動生成, クリーニング, レビュー, 注釈付けにより, 自己学習を可能にする新しいパラダイムを提案する。我々のアプローチは、LLMが継続的自己進化型データエンジニアとして機能することを示し、トレーニング後のデータ構築プロセスの時間とコストを大幅に削減する。
論文参考訳（メタデータ） (Thu, 19 Dec 2024 18:28:41 GMT)
LLMがデータの生成、自己学習を行っていくLanguage Models as Continuous Self-Evolving Data Engineers (LANCE)の提案。「This training paradigm with autonomous data construction not only reduces the reliance on human experts or external models but also ensures that the data aligns with human values and preferences, paving the way for the development of future superintelligent systems that can exceed human capabilities.」と強い主張がされている。
近しい研究は過去にもあるのでこの方針が有効であるのはそうであろうと思うが、限界はあるはずでsuperintelligent systemにつながるかというとかなり疑問ではある。

Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice

Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.1]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。これら2つの目標 – モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 – は、様々な技術的および現実的な課題を表す。
論文参考訳（メタデータ） (Mon, 09 Dec 2024 20:18:43 GMT)
Machine unlearningに関する包括的な情報。「despite the intuitive alignment of the meanings of the words “removal” and “deletion,” it is unclear if technical removal is indeed necessary to satisfy deletion requirements in law and policy.」など技術的な部分以外への言及に力を入れた整理でとても参考になる。

RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.8]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。 5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文参考訳（メタデータ） (Mon, 16 Dec 2024 16:03:25 GMT)
検索と生成をシームレスにつなぐフレームワークの提案、
リポジトリはGitHub – sunnynexus/RetroLLM: RetroLLM: Empowering LLMs to Retrieve Fine-grained Evidence within Generation

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.1]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文参考訳（メタデータ） (Mon, 09 Dec 2024 18:58:03 GMT)
プロジェクトサイトはDriv3R、リポジトリはGitHub – Barrybarry-Smith/Driv3R: Official Implementation of Driv3R

Mixture of Hidden-Dimensions Transformer

Mixture of Hidden-Dimensions Transformer [50.4]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文参考訳（メタデータ） (Sat, 07 Dec 2024 13:15:22 GMT)
最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30