- Apple Intelligence Foundation Language Models [109.6]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。 私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文 参考訳(メタデータ) (Mon, 29 Jul 2024 18:38:49 GMT) - Appleによる基盤モデルの紹介。「AFM-server: We train AFM-server from scratch for 6.3T tokens on 8192 TPUv4 chips, using a sequence length of 4096 and a batch-size of 4096 sequences.」といったようにかなり詳細な内容が記載されている。「AFM-on-device: For the on-device model, we found that knowledge distillation [Hinton et al , 2015] and structural pruning are effective ways to improve model performance and training efficiency.」とデバイス向けはMINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)と近いアプローチに見える。
- プロジェクトサイトはIntroducing Apple’s On-Device and Server Foundation Models – Apple Machine Learning Research
タグ: LLM
Preliminary WMT24 Ranking of General MT Systems and LLMs
- Preliminary WMT24 Ranking of General MT Systems and LLMs [69.8]
自動メトリクスに基づくWMT24一般MTシステムの序列である。 公式ランキングは人間による評価であり、自動ランキングよりも優れている。
論文 参考訳(メタデータ) (Mon, 29 Jul 2024 11:01:17 GMT) - 「This is the preliminary ranking of WMT24 General MT systems based on automatic metrics.」、自動評価によるものではあるがとても興味深い
- 印象的な結果を残している「Unbabel -Tower70B」はAnnouncing Tower : An Open Multilingual LLM for Translation-Related Tasks (unbabel.com)、Tower – a Unbabel Collection (huggingface.co)の大規模バージョンだろうか。詳細が気になるところ。
OpenDevin
- OpenDevin: An Open Platform for AI Software Developers as Generalist Agents [109.9]
私たちは、人間の開発者と同様の方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenDevinを紹介します。 プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
論文 参考訳(メタデータ) (Tue, 23 Jul 2024 17:50:43 GMT) - ソフトウエア構築の自動化を目指すCognition | Introducing Devin, the first AI software engineerのオープン版。様々なベンチマークでの評価や他手法との比較も興味深い。ベースモデルとしてはClaude 3.5 sonnetの優秀さが目立ち、Claude 3.5 Opusに期待大。
- リポジトリはGitHub – OpenDevin/OpenDevin: 🐚 OpenDevin: Code Less, Make More
Open Problems in Technical AI Governance
- Open Problems in Technical AI Governance [93.9]
テクニカルAIガバナンス(Technical AI Governance)は、AIの効果的なガバナンスを支援するための技術分析とツールである。 本論文は、AIガバナンスへの貢献を目指す技術研究者や研究資金提供者のためのリソースとして意図されている。
論文 参考訳(メタデータ) (Sat, 20 Jul 2024 21:13:56 GMT) - technical AI governance (TAIG)の紹介、「Assessment, Access, Verification, Security, Operationalization, Ecosystem Monitoring」×「Data, Compute, Model and Algorithm, Deployment」のマトリクスによる整理で技術的にはしっくりくる。
- 当然ながら、オープンな問題は多い。
Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data
Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。
- Introducing Llama 3.1: Our most capable models to date (meta.com)
- Large Enough | Mistral AI | Frontier AI in your hands
Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overfitted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。
上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。
下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。
- Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。 生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 23:13:42 GMT) - 実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。
Are Large Language Models Capable of Generating Human-Level Narratives?
- Are Large Language Models Capable of Generating Human-Level Narratives? [114.3]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。 本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。 談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (Thu, 18 Jul 2024 08:02:49 GMT) - LLMに物語の理解が可能かの検証。検証しているモデルが若干古めではあるがGemini、Claudeのスコアが高め
- リポジトリはGitHub – PlusLabNLP/Narrative-Discourse
Consent in Crisis: The Rapid Decline of the AI Data Commons
- Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文 参考訳(メタデータ) (Sat, 20 Jul 2024 16:50:18 GMT) - 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
- リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
- SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。
MINITRON / Compact Language Models via Pruning and Knowledge Distillation
- Compact Language Models via Pruning and Knowledge Distillation [61.6]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。 すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (Fri, 19 Jul 2024 21:47:57 GMT) - Nemotron 15Bから得られた高性能な8Bモデル及び4Bモデル。pruningとdistillationを組み合わせたベストプラクティスを報告。Gemma2, CriticGPT – arXiv最新論文の紹介 (devneko.jp)のときも蒸留が用いられていたが、大規模なモデルから小規模高性能なモデルを得るような手順が一般的になるのだろうか・・・
- リポジトリはGitHub – NVlabs/Minitron: A family of compressed models obtained via pruning and knowledge distillation
sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting
- sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [27.1]
本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。 SPhinXは、命令応答対を英語から50言語に選択的に翻訳することで作成される。 Phi-3-Small と Mistral-7B の2つの最先端モデルを微調整するために sPhinX の有効性を検証した。
論文 参考訳(メタデータ) (Sat, 13 Jul 2024 13:03:45 GMT) - 「To mitigate this issue, we prompt GPT-4 to selectively translate the instructions, so that the tasks are translated into the appropriate language without changing the semantic meaning.」とLLMを用いた機械翻訳を有効に使った多言語fine tuning。
- 「We devise LAnguage-Specific N-shot Guided Instruction fine-tuning (LANG) strategy for enhancing the multilingual capabilities of LLMs」を含め有効だとは思うのだが現時点ではライセンス上使いにくい・・・(ライセンス的にOKなNemotronだと現実的なのか気になるところ)
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
- Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。 本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。 プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 03:05:53 GMT) - Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer(個人名に対する質問への回答拒否)とContrastive Data Augmentation(個人に対する質問を拡張しデータ不足を解消)を用いたNAUF: Name-Aware Unlearning Framework で優れた性能を達成と報告。
- リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”