- KAN or MLP: A Fairer Comparison [63.8]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。 パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。 我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (Tue, 23 Jul 2024 17:43:35 GMT) - 以前話題にあったKAN: Kolmogorov-Arnold Networks – arXiv最新論文の紹介 (devneko.jp)とMLPの比較、「We found that KAN can be seen as a special type of MLP, with its uniqueness stemming from the use of learnable B-spline functions as activation functions.」、「Our main observation is that, except for symbolic formula representation tasks, MLP generally outperforms KAN.」と評価。
投稿者: staka
Open Problems in Technical AI Governance
- Open Problems in Technical AI Governance [93.9]
テクニカルAIガバナンス(Technical AI Governance)は、AIの効果的なガバナンスを支援するための技術分析とツールである。 本論文は、AIガバナンスへの貢献を目指す技術研究者や研究資金提供者のためのリソースとして意図されている。
論文 参考訳(メタデータ) (Sat, 20 Jul 2024 21:13:56 GMT) - technical AI governance (TAIG)の紹介、「Assessment, Access, Verification, Security, Operationalization, Ecosystem Monitoring」×「Data, Compute, Model and Algorithm, Deployment」のマトリクスによる整理で技術的にはしっくりくる。
- 当然ながら、オープンな問題は多い。
Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data
Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。
- Introducing Llama 3.1: Our most capable models to date (meta.com)
- Large Enough | Mistral AI | Frontier AI in your hands
Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overfitted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。
上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。
下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。
- Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。 生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 23:13:42 GMT) - 実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。
Are Large Language Models Capable of Generating Human-Level Narratives?
- Are Large Language Models Capable of Generating Human-Level Narratives? [114.3]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。 本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。 談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (Thu, 18 Jul 2024 08:02:49 GMT) - LLMに物語の理解が可能かの検証。検証しているモデルが若干古めではあるがGemini、Claudeのスコアが高め
- リポジトリはGitHub – PlusLabNLP/Narrative-Discourse
AlphaProof, AlphaGeometry2
AI achieves silver-medal standard solving
形式的数学推論のための新しい強化学習システムであるalphaproofと,改良されたジオメトリシステムであるalphageometry 2を提案する。これらのシステムは6つ問題のうち4つを解決し今年の国際数学オリンピック(IMO)で、初めて銀メダリストと同じレベルを達成した。IMOは、1959年以来毎年開催される若手数学者の最も古く、最も大きく、最も名高い競技である。フィールドズメダルの受賞者の多くは、数学者にとって最高の栄誉の1つであり、IMOで国を代表している。
AI achieves silver-medal standard solving International Mathematical Olympiad problems – Google DeepMind
Google DeepMindによる発表で、数学オリンピックで銀メダルに相当するAIを構築とのこと。特化したモデルとはいえ数学でトップレベルを達成したのは凄い。
Consent in Crisis: The Rapid Decline of the AI Data Commons
- Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文 参考訳(メタデータ) (Sat, 20 Jul 2024 16:50:18 GMT) - 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
- リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
- SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。
MINITRON / Compact Language Models via Pruning and Knowledge Distillation
- Compact Language Models via Pruning and Knowledge Distillation [61.6]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。 すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (Fri, 19 Jul 2024 21:47:57 GMT) - Nemotron 15Bから得られた高性能な8Bモデル及び4Bモデル。pruningとdistillationを組み合わせたベストプラクティスを報告。Gemma2, CriticGPT – arXiv最新論文の紹介 (devneko.jp)のときも蒸留が用いられていたが、大規模なモデルから小規模高性能なモデルを得るような手順が一般的になるのだろうか・・・
- リポジトリはGitHub – NVlabs/Minitron: A family of compressed models obtained via pruning and knowledge distillation
GTA: A Benchmark for General Tool Agents
- GTA: A Benchmark for General Tool Agents [32.4]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。 この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (Thu, 11 Jul 2024 17:50:09 GMT) - リアルなシナリオでツールを利用して問題を解くエージェントの能力を評価するベンチマーク。想定されているツールはOCRやDrawBox、Calculator、TextToImageなど14種類。「Our findings show that realworld user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%.」とのこと。
- リポジトリはGitHub – open-compass/GTA: Official repository for paper “GTA: A Benchmark for General Tool Agents”
sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting
- sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [27.1]
本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。 SPhinXは、命令応答対を英語から50言語に選択的に翻訳することで作成される。 Phi-3-Small と Mistral-7B の2つの最先端モデルを微調整するために sPhinX の有効性を検証した。
論文 参考訳(メタデータ) (Sat, 13 Jul 2024 13:03:45 GMT) - 「To mitigate this issue, we prompt GPT-4 to selectively translate the instructions, so that the tasks are translated into the appropriate language without changing the semantic meaning.」とLLMを用いた機械翻訳を有効に使った多言語fine tuning。
- 「We devise LAnguage-Specific N-shot Guided Instruction fine-tuning (LANG) strategy for enhancing the multilingual capabilities of LLMs」を含め有効だとは思うのだが現時点ではライセンス上使いにくい・・・(ライセンス的にOKなNemotronだと現実的なのか気になるところ)
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
- Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。 本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。 プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 03:05:53 GMT) - Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer(個人名に対する質問への回答拒否)とContrastive Data Augmentation(個人に対する質問を拡張しデータ不足を解消)を用いたNAUF: Name-Aware Unlearning Framework で優れた性能を達成と報告。
- リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”