2025年2月12日 – arXiv最新論文の紹介

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文参考訳（メタデータ） (Wed, 29 Jan 2025 05:51:25 GMT)
「TAID reduces the gap between teacher and student model throughout the training process by dynamically introducing an intermediate teacher that interpolates teacher and student models to provide a target distribution with a modest capability」という蒸留法の提案
ニュースリリースは新手法「TAID」を用いた小規模日本語言語モデル「TinySwallow-1.5B」の公開、リポジトリはTinySwallow – a SakanaAI Collection
Deepseek R1のようにライセンス上蒸留を許可しているLRM/LLMが出てきたことによるこの手の手法の重要性が上がっているように思う。

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.8]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文参考訳（メタデータ） (Thu, 30 Jan 2025 14:07:56 GMT)
Medical分野のベンチマーク。o1だけでなくDeepseek R1の結果も載っており、対応が速い。この結果だとo1はDeepseek R1より大幅にスコアが高い。
リポジトリはGitHub – TsinghuaC3I/MedXpertQA: MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Teaching Language Models to Critique via Reinforcement Learning [59.4]
我々は、CTRLでトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文参考訳（メタデータ） (Wed, 05 Feb 2025 02:18:46 GMT)
「two-stage training approach: (1) synthesizing high-quality critiques by reasoning about execution feedback, then (2) refining the critic through reinforcement learning.」という2ステージ構成、強化学習（GRPO）を活用したcriticモデルの構築。
プロジェクトサイトはCTRL: Critic Training via Reinforcement Learning

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文参考訳（メタデータ） (Thu, 06 Feb 2025 18:59:55 GMT)
MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい（この論文ではOmni Modalと表現）
プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face