ChatGPT Agent, Voxtral

先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent  – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。

Mixtralからはマルチモーダル音声チャットモデルが公開されている(Voxtral | Mistral AI)。高性能かつApache 2.0 licenseでの公開は非常にありがたい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です