音声理解 – arXiv最新論文の紹介

先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。

Mixtralからはマルチモーダル音声チャットモデルが公開されている（Voxtral | Mistral AI）。高性能かつApache 2.0 licenseでの公開は非常にありがたい。

Voxtral [103.4]
本稿では,Voxtral MiniとVoxtral Smallの2つのマルチモーダル音声チャットモデルを提案する。 Voxtralは音声とテキストの両方を理解できるように訓練されている。 32Kコンテキストウィンドウにより、モデルは最大40分間の音声ファイルと長時間のマルチターン会話を処理できる。
論文参考訳（メタデータ） (Thu, 17 Jul 2025 16:17:37 GMT)
リポジトリはmistralai/Voxtral-Small-24B-2507 · Hugging Face、mistralai/Voxtral-Mini-3B-2507 · Hugging Face

SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文参考訳（メタデータ） (Fri, 19 Nov 2021 18:59:23 GMT)
- 音声を用いたASR（Automatic Speech Recognition）、NER（Named Entity Recognition）、SA（Sentiment Analysis）タスクのベンチマーク。
- プロジェクトサイトはGitHub – asappresearch/slue-toolkit

月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

タグ: 音声理解

ChatGPT Agent, Voxtral

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク