Gemini 2.5, Deepseek V3, MCP … – arXiv最新論文の紹介

週刊LLMが続いている。Gemini 2.5はGoogle Deepmindの最新モデルで非常に性能が高い（Gemini 2.5: Our newest Gemini model with thinking）。Humanity’s Last Examで18.8%と非常に難しいデータセットに対しても性能が上がっていっているのがすごい。Deepseek V3もアップデートが出ており当初のバージョンよりも性能が上がっている（DeepSeek-V3-0324 Release | DeepSeek API Docs、deepseek-ai/DeepSeek-V3-0324 · Hugging Face）。Gemma 3やQwen2.5 Omniのテクニカルレポートにも要注目。

LLM以外でもOpenAIのMCP対応（Model context protocol (MCP) – OpenAI Agents SDK）や画像生成AI（Introducing 4o Image Generation | OpenAI）などバズるニュースが多い。Reve AI | Next-Gen AI Image Generator with Reve Image 1.0など新たな動きもあり、本当に活発な分野である。

Gemma 3 Technical Report [198.3]
Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
論文参考訳（メタデータ） (Tue, 25 Mar 2025 15:52:34 GMT)

Qwen2.5-Omni Technical Report [31.0]
本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。 Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (Wed, 26 Mar 2025 04:17:55 GMT)

コメントを残す

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル