LLMs can be Fooled into Labelling a Document as Relevant (best café near me; this paper is perfectly relevant)

  • LLMs can be Fooled into Labelling a Document as Relevant (best café near me; this paper is perfectly relevant) [27.0]
    本研究は,複数のオープンソースおよびプロプライエタリ LLM を用いて,関連性を考慮した短いテキスト(パス)のラベル付け実験について報告する。 人間の判断とLLMの全体的な合意は、以前の研究で測定された人間対人間の合意に匹敵するものであるが、LLMは人間の判断と関連するパスをラベル付けする可能性が高い。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 20:11:35 GMT)
  • 「This tendency of LLMs to be fooled by the mere presence of query words demonstrates a weakness in our current measures of LLM labelling: relying on overall agreement misses important patterns of failures.」というのは興味深い。「In production environments, LLMs might be vulnerable to keyword stuffing and other SEO strategies.」

Qwen2.5-Max, Janus-Pro, o3-mini, Mistral Small, Tulu 3 405B, Open R1, BAICHUAN-OMNI-1.5

Deepseek V3/R1関連の話題が盛り上がる中、先週も様々な話題があった。DeepseekからはマルチモーダルモデルJanus-Pro(GitHub – deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models)、AlibabaからはDeepseekに対抗するようなQwenの最大モデルの発表(Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen)が発表された。ロングコンテキス化に関する論文も出ている点にも要注目。

OpenAIからo3-mini(OpenAI o3-mini | OpenAI)が出てHumanity’s Last Examでo1やr1を超えたのは大きなニュースだった(若干誇大広告気味な部分はあるが)

Mistralからは小規模で高性能なモデルMistral small(Mistral Small 3 | Mistral AI | Frontier AI in your handsmistralai/Mistral-Small-24B-Instruct-2501 · Hugging Face)がApache-2ライセンスで発表された。

Ai2からは大規模高性能なLLM Tulu3(Scaling the Tülu 3 post-training recipes to surpass the performance of DeepSeek V3 | Ai2)(Llama 3.1ベース、405B)が、HuggingFaceからはDeepseek R1の再現を目指すOpen R1が発表される(Open-R1: a fully open reproduction of DeepSeek-R1)などオープンな取り組みも盛り上がっている。

マルチモーダル化の流れでも「Open-source Omni-modal Foundation Model Supporting Text, Image, Video, and Audio Inputs as Well as Text and Audio Outputs」なBAICHUAN-OMNI-1.5のテクニカルレポートが出ており、クローズド、オープン両方の陣営とも競争が非常に激しい。

  • Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling [27.1]
    我々は、Janus-Proという前作の先進的なバージョンを紹介します。 Janus-Proは(1)最適化されたトレーニング戦略、(2)拡張されたトレーニングデータ、(3)より大きなモデルサイズへのスケーリングを取り入れている。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 18:00:19 GMT)
  • 「We apply independent encoding methods to convert the raw inputs into features, which are then processed by an unified autoregressive transformer.」と、Auto regressive transformer、LLaVAに比べてパラメータ効率が高い
  • Qwen2.5-1M Technical Report [72.1]
    コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。 我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
    論文  参考訳(メタデータ)   (Sun, 26 Jan 2025 03:47:25 GMT)
  • Qwenのロングコンテキス化
  • Baichuan-Omni-1.5 Technical Report [78.5]
    Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。 マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。 第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
    論文  参考訳(メタデータ)   (Sun, 26 Jan 2025 02:19:03 GMT)
  • オープンなMLLM
  • リポジトリはGitHub – baichuan-inc/Baichuan-Omni-1.5
  • Humanity’s Last Exam [244.6]
    HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。 数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。 各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
    論文  参考訳(メタデータ)   (Fri, 24 Jan 2025 05:27:46 GMT)
  • 現状のAIで解くのが困難なベンチマーク、プロジェクトサイトはHumanity’s Last Exam
  • Tulu 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
    トゥル3(Tulu 3)は、最先端の訓練後モデルである。 Tulu 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 18:46:59 GMT)
  • もともとは11月に出た論文。405B版は非常に高性能。
  • 上述のサイトでは「Interestingly, we found that our Reinforcement Learning from Verifiable Rewards (RLVR) framework improved the MATH performance more significantly at a larger scale, i.e., 405B compared to 70B and 8B, similar to the findings in the DeepSeek-R1 report. Overall, our results show a consistent edge over DeepSeek V3, especially with the inclusion of safety benchmarks.」とのこと。

Harnessing Large Language Models for Disaster Management: A Survey

  • Harnessing Large Language Models for Disaster Management: A Survey [57.0]
    大規模言語モデル(LLM)は、その例外的な能力で科学研究に革命をもたらし、様々な分野を変革した。 本研究の目的は,災害対策のための高度LLMの開発における専門家コミュニティの指導であり,自然災害に対するレジリエンスを高めることである。
    論文  参考訳(メタデータ)   (Sun, 12 Jan 2025 21:00:50 GMT)
  • 災害へのLLM適用に関するサーベイで、Mitigation、Preparedness、Response、Recoveryの軸で整理

Foundations of Large Language Models

  • Foundations of Large Language Models [50.0]
    本書は4つの主要な章で構成されており、それぞれが事前学習、生成モデル、プロンプト技術、アライメント方法という重要な領域を探求している。 自然言語処理や関連分野の大学生、専門家、実践者を対象としている。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 01:03:56 GMT)
  • 200ページ超でLLMの教科書という内容。
  • ライセンスはDeed – Attribution-NonCommercial 4.0 International – Creative Commons で商用利用できない点に注意が必要。

MiniMax-01: Scaling Foundation Models with Lightning Attention 

  • MiniMax-01: Scaling Foundation Models with Lightning Attention [59.4]
    MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。 MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。 私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
    論文  参考訳(メタデータ)   (Tue, 14 Jan 2025 18:50:05 GMT)
  • 456B(32エキスパート、アクティブパラメータ 45.9B)のMoE構成の大規模な公開LLM。性能はGPT-4oなど商用モデルに匹敵するうえ、扱えるコンテキスト長が4Mトークンととても長い。「We demonstrate the first successful large-scale implementation of linear attention.」と主張(「After extensive experimentation, we settled on a hybrid architecture mainly using lightning attention (Qin et al , 2024b), an I/O-aware implementation of a linear attention variant (Qin et al , 2022a).」ともある通りハイブリッド構成)。
  • リポジトリはGitHub – MiniMax-AI/MiniMax-01

Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs

  • Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs [34.2]
    大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。 自己訂正能力は、自信(回答を正す自信)と批判(間違った回答を正しいものにする)に分解します。 我々の戦略は両方の能力においてバニラSFTより優れており、自己補正後の精度ははるかに高い。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 08:09:11 GMT)
  • Confidence scoreとCriticの分析、および、自己修正能力を高める手法の提案
  • 「Confidence prompt/ICL example can lead higer CL and lower CS; critique prompt/ICL example can cause lower CL and higher CS.」(Confidence Level (CL) and Critique Score (CS))とトレードオフの関係にあるとのこと。
  • 両者を改善するために「Critique Improvement Tuning (CCT), which can be divided into Confidence Level Improvement Tuning (CLT) and Critique Score Improvement Tuning (CST).」を提案
  • リポジトリはGitHub – Zhe-Young/SelfCorrectDecompose: Code for paper “Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs”

Large Concept Models: Language Modeling in a Sentence Representation Space 

  • Large Concept Models: Language Modeling in a Sentence Representation Space [62.7]
    本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。 概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。 本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
    論文  参考訳(メタデータ)   (Sun, 15 Dec 2024 21:20:12 GMT)
  • トークン単位ではなくコンセプト単位に言語を扱ったモデルの提案、「In this study, as proof of feasibility, we assume that a concept corresponds to a sentence, and use an existing sentence embedding space, SONAR, which supports up to 200 languages in both text and speech modalities. The Large Concept Model is trained to perform autoregressive sentence prediction in an embedding space.」という設定で「The LCM outperforms Llama-3.1-8B-IT on English and on the average over foreign languages officially supported by the LLM.」との興味深い結果。一方で「We acknowledge that there is still a long path to reach the performance of current flagship LLMs.」との記載も。
  • リポジトリはGitHub – facebookresearch/large_concept_model: Large Concept Models: Language modeling in a sentence representation space

Deliberation in Latent Space via Differentiable Cache Augmentation 

  • Deliberation in Latent Space via Differentiable Cache Augmentation [48.2]
    凍結した大規模言語モデルをオフラインコプロセッサで拡張し,キー値(kv)キャッシュで動作することを示す。 このコプロセッサは、後続の復号化の忠実性を改善するために設計された遅延埋め込みのセットでキャッシュを増強する。 キャッシュが拡張されると、デコーダは多数のトークンに対して低いパープレキシティを達成できることを示す。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 18:02:25 GMT)
  • 「This paper introduces differentiable cache augmentation, a novel method for enhancing frozen decoderonly language models by incorporating a learned coprocessor that operates on the model’s kv-cache.」という提案。coprocessorはトレーニング可能。
  • 論文でも言及のある Pause Token と考え方は似ているが、この手法のほうがより強力とのこと。

Knowledge Boundary of Large Language Models: A Survey

  • Knowledge Boundary of Large Language Models: A Survey [75.7]
    大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。 これは、LLMの知識境界を理解するための重要な必要性を強調している。 本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
    論文  参考訳(メタデータ)   (Tue, 17 Dec 2024 02:14:02 GMT)
  • LLMの知識境界に関するサーベイ
  • 面白い視点

DeepSeek v3, QVQ-72B-Preview, YuLan-Mini

公開モデルも高性能化が続いている。DeepSeek v3は671Bと非常に大きなモデル(だが、アクティブパラメータは37BのMoE)でGPT-4oやClaude 3.5 Sonnet競合を主張。 GitHub – deepseek-ai/DeepSeek-V3

QVQ-72B-PreviewはQwen 2.5, Qwen 2 VL, GRIN-MoE, Pixtral – arXiv最新論文の紹介のQwen2 VLから推論能力を強化、GPT-4oだけでなくタスクによってはOpenAI o1と競合する性能を主張。QVQ: To See the World with Wisdom | Qwen

YuLan-Miniは2.42B、1.08Tトークンでのトレーニングと比較的小規模だが、競合する公開モデルを上回る性能を主張。YuLan-Mini/README_ja.md at main · RUC-GSAI/YuLan-Mini · GitHub

中国の研究機関はモデルや手法をかなり公開してくれている印象。非常にありがたい。

  • YuLan-Mini: An Open Data-efficient Language Model [111.0]
    2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。 注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 17:47:53 GMT)
  • 「Our approach includes three major contributions to enhance training efficacy: (1) an elaborately designed data pipeline that combines data cleaning with data schedule strategies; (2) a systematic optimization method that can effectively mitigate training instability; (3) an effective annealing approach that integrate targeted data selection and long context training.」とのこと。
  • DeepSeek-V3 Technical Report [147.2]
    We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token。 我々は14.8兆の多様性と高品質のトークンでDeepSeek-V3を事前訓練し、その後にSupervised Fine-Tuning and Reinforcement Learningのステージを受講した。 包括的な評価によると、DeepSeek-V3は他のオープンソースモデルよりも優れており、主要なクローズドソースモデルに匹敵するパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 04:03:16 GMT)
  • 「During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M.」ととてもコストパフォーマンスが良い。もっとも「Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.」
  • Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code [123.7]
    本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 03:53:21 GMT)
  • aurora-m/aurora-m-biden-harris-redteamed · Hugging Face こういったモデルも存在。対応言語に日本語が明記されている。