LLM – ページ 17 – arXiv最新論文の紹介

PLaMo-100B, EXAONE 3.0 7.8B, ShieldGemma

先週も多くの話題があったが、注目はPFNのPLaMo-100Bで詳細がBlogに公開されている。日本語での性能はGPT-4(0125 Preview)とほぼ同等と高い。その他のベンチマークでの評価も気になるところ。1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 – Preferred Networks Research & Development

LG AI Researchの小規模で強力なLLM、Gemmaベースのsafety content moderation modelなども興味深かった。

EXAONE 3.0 7.8B Instruction Tuned Language Model [42.2]
EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。 EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
論文参考訳（メタデータ） (Wed, 07 Aug 2024 04:38:38 GMT)
韓国語の性能に優れるLLM
リポジトリはLGAI-EXAONE/EXAONE-3.0-7.8B-Instruct · Hugging Face

ShieldGemma: Generative AI Content Moderation Based on Gemma [49.9]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (Wed, 31 Jul 2024 17:48:14 GMT)
強力な性能のGemmaベースなコンテンツモデレーションモデル
サイトはShieldGemma | Google AI for Developers、リポジトリはgoogle/shieldgemma-2b · Hugging Face

Towards Effective and Efficient Continual Pre-training of Large Language Models

Towards Effective and Efficient Continual Pre-training of Large Language Models [163.3]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文参考訳（メタデータ） (Fri, 26 Jul 2024 13:55:21 GMT)
Llama-3に対して継続学習を実施、中国語能力と科学技術関連の推論能力を強化した報告。合成データを活用している点が興味深い。
リポジトリはGitHub – RUC-GSAI/Llama-3-SynE、現時点ではcoming soon

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
論文参考訳（メタデータ） (Tue, 23 Jul 2024 06:45:52 GMT)
アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む（というよりは少し前から出来上がってきた）分野

Internal Consistency and Self-Feedback in Large Language Models: A Survey

Internal Consistency and Self-Feedback in Large Language Models: A Survey [17.5]
大規模言語モデル(LLM)は、正確に応答することが期待されているが、しばしば不十分な推論や幻覚的内容を生成する。理論的枠組みは「内部整合性(internal Consistency)」と呼ばれ、推論の欠如や幻覚の存在といった現象について統一的な説明を提供する。本稿では,自己フィードバック(Self-Feedback)と呼ばれる内部一貫性をマイニングする,合理的かつ効果的な理論的枠組みを提案する。
論文参考訳（メタデータ） (Fri, 19 Jul 2024 17:59:03 GMT)
Self-なんとかに関連するもののサーベイ。「Self-Evaluation」と「 Self-Update」からなる「Self-Feedbackフレームワーク」で考えると整理しやすいのは確か。
リポジトリはGitHub – IAAR-Shanghai/ICSFSurvey: A comprehensive survey on Internal Consistency and Self-Feedback in Large Language Models, including theoretical frameworks, task classifications, evaluation methods, future research directions and more!

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成（だけではないが）AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃（Segment Anything – arXiv最新論文の紹介 (devneko.jp)）から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場（Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com)）した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く（FLUX.1は一部）が公開されているのが非常に興味深い。

SAM 2: Segment Anything in Images and Videos
segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
動画のセグメンテーションがSAM的に可能になったSAM2。
公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

Apple Intelligence Foundation Language Models

Apple Intelligence Foundation Language Models [109.6]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文参考訳（メタデータ） (Mon, 29 Jul 2024 18:38:49 GMT)
Appleによる基盤モデルの紹介。「AFM-server: We train AFM-server from scratch for 6.3T tokens on 8192 TPUv4 chips, using a sequence length of 4096 and a batch-size of 4096 sequences.」といったようにかなり詳細な内容が記載されている。「AFM-on-device: For the on-device model, we found that knowledge distillation [Hinton et al , 2015] and structural pruning are effective ways to improve model performance and training efficiency.」とデバイス向けはMINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)と近いアプローチに見える。
プロジェクトサイトはIntroducing Apple’s On-Device and Server Foundation Models – Apple Machine Learning Research

Preliminary WMT24 Ranking of General MT Systems and LLMs

Preliminary WMT24 Ranking of General MT Systems and LLMs [69.8]
自動メトリクスに基づくWMT24一般MTシステムの序列である。公式ランキングは人間による評価であり、自動ランキングよりも優れている。
論文参考訳（メタデータ） (Mon, 29 Jul 2024 11:01:17 GMT)
「This is the preliminary ranking of WMT24 General MT systems based on automatic metrics.」、自動評価によるものではあるがとても興味深い
印象的な結果を残している「Unbabel -Tower70B」はAnnouncing Tower : An Open Multilingual LLM for Translation-Related Tasks (unbabel.com)、Tower – a Unbabel Collection (huggingface.co)の大規模バージョンだろうか。詳細が気になるところ。

OpenDevin

OpenDevin: An Open Platform for AI Software Developers as Generalist Agents [109.9]
私たちは、人間の開発者と同様の方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenDevinを紹介します。プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
論文参考訳（メタデータ） (Tue, 23 Jul 2024 17:50:43 GMT)
ソフトウエア構築の自動化を目指すCognition | Introducing Devin, the first AI software engineerのオープン版。様々なベンチマークでの評価や他手法との比較も興味深い。ベースモデルとしてはClaude 3.5 sonnetの優秀さが目立ち、Claude 3.5 Opusに期待大。
リポジトリはGitHub – OpenDevin/OpenDevin: 🐚 OpenDevin: Code Less, Make More

Open Problems in Technical AI Governance

Open Problems in Technical AI Governance [93.9]
テクニカルAIガバナンス(Technical AI Governance)は、AIの効果的なガバナンスを支援するための技術分析とツールである。本論文は、AIガバナンスへの貢献を目指す技術研究者や研究資金提供者のためのリソースとして意図されている。
論文参考訳（メタデータ） (Sat, 20 Jul 2024 21:13:56 GMT)
technical AI governance (TAIG)の紹介、「Assessment, Access, Verification, Security, Operationalization, Ecosystem Monitoring」×「Data, Compute, Model and Algorithm, Deployment」のマトリクスによる整理で技術的にはしっくりくる。
当然ながら、オープンな問題は多い。

Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data

Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。

Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overﬁtted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。

上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。

下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文参考訳（メタデータ） (Mon, 29 Apr 2024 23:13:42 GMT)
実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31