「Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。
記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。
最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。
「Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。
記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。
最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。
先週の大きな話題はMistral3の発表(XユーザーのMistral AIさん: 「Introducing the Mistral 3 family of models: Frontier intelligence at all sizes. Apache 2.0. Details in 🧵 https://t.co/lsrDmhW78u」 / X、Introducing Mistral 3 | Mistral AI)とDeepSeek v3.2(deepseek-ai/DeepSeek-V3.2-Speciale · Hugging Face)だった。いずれも強力な公開モデルであり、フロンティアモデルに近い性能を主張している。新たなモデル発表が相次ぎ、実際の性能検証はこれからという感じではあるが、着実に研究が進展している感がある。
OpenRouterから発表されたState of AI | OpenRouterも興味深いレポートだった。(バイアスはあるのだろうが)コード生成によく用いられている点、多様なモデルが利用されている点など興味深い。
PoetiqからのARC-AGI-2のSoTA(XユーザーのPoetiqさん: 「Poetiq has officially shattered the ARC-AGI-2 SOTA 🚀 @arcprize has officially verified our results: – 54% Accuracy – first to break the 50% barrier! – $30.57 / problem – less than half the cost of the previous best! We are now #1 on the leaderboard for ARC-AGI-2! https://t.co/a8tPtCynVY」 / X)に関する発表も興味深かった。詳細な検証(他チームのものを含む)待ちの面はあるのだろうが、Agenticな処理や複数のLLMの組み合わせには現在でも効果があるように思える。