先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。
Mixtralからはマルチモーダル音声チャットモデルが公開されている(Voxtral | Mistral AI)。高性能かつApache 2.0 licenseでの公開は非常にありがたい。
- Voxtral [103.4]
本稿では,Voxtral MiniとVoxtral Smallの2つのマルチモーダル音声チャットモデルを提案する。 Voxtralは音声とテキストの両方を理解できるように訓練されている。 32Kコンテキストウィンドウにより、モデルは最大40分間の音声ファイルと長時間のマルチターン会話を処理できる。
論文 参考訳(メタデータ) (Thu, 17 Jul 2025 16:17:37 GMT) - リポジトリはmistralai/Voxtral-Small-24B-2507 · Hugging Face、mistralai/Voxtral-Mini-3B-2507 · Hugging Face