TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models 

  • TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8]
    本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。 これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 05:51:25 GMT)
  • 「TAID reduces the gap between teacher and student model throughout the training process by dynamically introducing an intermediate teacher that interpolates teacher and student models to provide a target distribution with a modest capability」という蒸留法の提案
  • ニュースリリースは新手法「TAID」を用いた小規模日本語言語モデル「TinySwallow-1.5B」の公開、リポジトリはTinySwallow – a SakanaAI Collection
  • Deepseek R1のようにライセンス上蒸留を許可しているLRM/LLMが出てきたことによるこの手の手法の重要性が上がっているように思う。

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Teaching Language Models to Critique via Reinforcement Learning 

  • Teaching Language Models to Critique via Reinforcement Learning [59.4]
    我々は、CTRLでトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。 また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
    論文  参考訳(メタデータ)   (Wed, 05 Feb 2025 02:18:46 GMT)
  • 「two-stage training approach: (1) synthesizing high-quality critiques by reasoning about execution feedback, then (2) refining the critic through reinforcement learning.」という2ステージ構成、強化学習(GRPO)を活用したcriticモデルの構築。
  • プロジェクトサイトはCTRL: Critic Training via Reinforcement Learning

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment 

  • Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
    Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。 我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
    論文  参考訳(メタデータ)   (Thu, 06 Feb 2025 18:59:55 GMT)
  • MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい(この論文ではOmni Modalと表現)
  • プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face