- Establishing Task Scaling Laws via Compute-Efficient Model Ladders [123.8]
我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。 まず、タスク固有の損失を予測するためにモデルとデータサイズを使用し、次にタスクの損失を使ってタスクパフォーマンスを予測する。
論文 参考訳(メタデータ) (Thu, 05 Dec 2024 18:21:49 GMT) - 効率よくタスク性能を予測する手法の提案、「With a less than 1% of the pretraining compute, we are able to predict the task performance of 7B-4T and 13B-5T models on individual multiple-choice tasks with good accuracy.」とのこと。
投稿者: staka
SoK: Watermarking for AI-Generated Content
- SoK: Watermarking for AI-Generated Content [112.9]
ウォーターマーキングスキームは、AI生成コンテンツに隠された信号を埋め込んで、信頼性の高い検出を可能にする。 透かしは、誤情報や偽造と戦ってAIの安全性と信頼性を高める上で重要な役割を果たす。 本研究の目的は、研究者が透かし法や応用の進歩を指導し、GenAIの幅広い意味に対処する政策立案者を支援することである。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 16:22:33 GMT) - Wartermarkingに関するサーベイ。
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.9]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。 開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。 この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (Fri, 22 Nov 2024 18:59:54 GMT) - MLLMの評価に関するサーベイで、リポジトリ GitHub – BradyFU/Awesome-Multimodal-Large-Language-Models at Benchmarks が非常に充実。
Liquid: Language Models are Scalable Multi-modal Generators
- Liquid: Language Models are Scalable Multi-modal Generators [112.7]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。 従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。 初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (Thu, 05 Dec 2024 16:48:16 GMT) - 既存のLLMに対して「The only modification is the addition of 8192 new learnable embeddings for discrete image tokens. Correspondingly, we extend the original LM head by 8192 dimensions to enable the model to predict both text and image tokens within the same embedding space.」という変更を加え画像を扱うという研究
- 「For image generation, Liquid outperforms other auto-regressive based models, as well as some diffusion models like SD-XL and achieve FID of 5.47 on MJHQ-30K, demonstrating that LLMs can acquire excellent imagery capabilities efficiently with a limited amount of data.」という結果に驚きだが、さらには「For visual understanding, Liquid surpasses Chameleon and achieved results comparable to those of well-established MLLMs. In text-only tasks, Liquid achieves comparable performance with Chameleon, which used mix pre-training on a very large scale, and surpasses the performance of LLAMA2, demonstrating undegraded linguistic capabilities.」とのこと。
Amazon Nova, OpenAI o-1 pro, Gemini-Exp-1206, Llama 3.3
先週はLLM関連の話題が特に多い週だった。Amazon、OpenAI、Google、Metaが大きめのリリースを出しており、OpenAIはこれから発表を続けていくとのことでとても楽しみである。
- Introducing-Amazon-Nova-A-New-Generation-of-Foundation-Models – US Press Center
- Amazonから発表された高性能LLM、下記のように様々なバージョンが存在
- Amazon Nova Micro(高速なtext to text)
- Amazon Nova Lite(高速なマルチモーダル)
- Amazon Nova Pro (高性能なマルチモーダル)
- Amazon Nova Premier(複雑な推論を得意とするモデル?)
- Amazon Nova Canva(画像生成)
- Amazon Nova Reel(動画生成)
- Amazonから発表された高性能LLM、下記のように様々なバージョンが存在
- Introducing ChatGPT Pro | OpenAI
- ChatGPT proの発表、OpenAI o1 pro modeはo1から性能をさらに上げている。
- https://aistudio.google.com/app/prompts/new_chat?model=gemini-exp-1206
- 2024-12-05時点でChatbot Arena (formerly LMSYS): Free AI Chat to Compare & Test Best AI Chatbotsトップのモデル
- Llama 3.3 | Model Cards and Prompt formats
- 「Llama 3.3 is a text-only 70B instruction-tuned model that provides enhanced performance relative to Llama 3.1 70B–and to Llama 3.2 90B when used for text-only applications. Moreover, for some applications, Llama 3.3 70B approaches the performance of Llama 3.1 405B.」を主張するMetaのモデル、公開モデル
各社の競争が非常に激しい。
Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier
- Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier [72.6]
8Bおよび32Bパラメータ多言語モデルの新世代であるAya Expanseモデルファミリを導入する。 Cohere For AIとCohereでの数年間の研究を活用することで、Aya Expanseは多言語パフォーマンスにおける新たな最先端技術を確立している。 Aya Expanse 8B と 32B が主要なオープンウェイトモデルより優れていることを示すために,23言語に翻訳された Arena-Hard-Auto データセットの評価を行った。
論文 参考訳(メタデータ) (Thu, 05 Dec 2024 15:41:06 GMT) - Cohereによる多言語LLM、公開モデルの論文。他の公開モデルより高性能を主張。
- リポジトリはCohereForAI/aya-expanse-8b · Hugging Face、CohereForAI/aya-expanse-32b · Hugging Face
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation
- Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。 改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 13:27:09 GMT) - GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
- データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face
Self-Improvement in Language Models: The Sharpening Mechanism
- Self-Improvement in Language Models: The Sharpening Mechanism [70.9]
言語モデリングにおける最近の研究は、言語モデルが外部からのフィードバックなしにより高いパフォーマンスを達成するために、言語世代を評価し、洗練する自己改善の可能性を高めている。 我々は、レンズを通して自己改善の能力について、新たな視点を提供する。 言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
論文 参考訳(メタデータ) (Mon, 02 Dec 2024 20:24:17 GMT) - 「Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences.」という研究
- 最近よく見るキーワードcritic – arXiv最新論文の紹介にも関連する面白い研究
Predicting Emergent Capabilities by Finetuning
- Predicting Emergent Capabilities by Finetuning [99.0]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。 提案手法は4つの標準NLPベンチマークを用いて検証する。 いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 01:48:09 GMT) - 「we found that our specific emergence prediction approach (e g , emergence law) can accurately predict the point of emergence up to 4x the FLOPS in advance, representing meaningful progress on the challenging unsolved problem of emergence prediction.」とのこと。
- fine tuningでどこまでいけるか?を知りたい状況は多いので有用な研究(だが、現時点で実用的かはやや疑問)
MH-MoE:Multi-Head Mixture-of-Experts
- MH-MoE:Multi-Head Mixture-of-Experts [119.5]
MH-MoE(Multi-Head Mixture-of-Experts)は,マルチヘッド機構を用いて, 異なる専門家内の様々な表現空間からの情報を集約し, 優れた性能を示す。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 09:05:36 GMT) - Fugu-MT 論文翻訳(概要): Multi-Head Mixture-of-Experts の実装の改善
- 「In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models.」