- MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models [101.7]
MMFM(Multimodal foundation model)は、自律運転、ヘルスケア、バーチャルアシスタントなど、様々なアプリケーションにおいて重要な役割を果たす。 既存のマルチモーダルモデルのベンチマークは、主にこれらのモデルの有用性を評価するか、公平性やプライバシといった限られた視点にのみフォーカスする。 MMFMの安全性と信頼性を総合的に評価するために,最初の統合プラットフォームMMDT(Multimodal DecodingTrust)を提案する。
論文 参考訳(メタデータ) (Wed, 19 Mar 2025 01:59:44 GMT) - Multimodal foundation modelsの信頼性評価フレームワークの提案。主な対象はsafety, hallucination, fairness, privacy, adversarial robustness, out-of-distribution (OOD) robustness。MMFMsということでT2I、I2Tの両方が含まれる。
- プロジェクトサイトはMMDecodingTrust Benchmark、リーダーボードも存在するMMDecodingTrust Benchmark。公開モデルより商用モデルの方が平均的にはスコアが高そうだが、評価軸によって状況が大きく異なるのが興味深い。
投稿者: staka
Can LLMs Automate Fact-Checking Article Writing?
- Can LLMs Automate Fact-Checking Article Writing? [69.9]
我々は、一般的なファクトチェックパイプラインを拡張し、フルファクトチェック記事の自動生成の必要性を論じる。 我々は,人間のファクトチェッカーの筆記ワークフローを模倣した LLM ベースのエージェントフレームワーク QRAFT を開発した。
論文 参考訳(メタデータ) (Sat, 22 Mar 2025 07:56:50 GMT) - いわゆる普通のファクトチェックではなく「QRAFT as a multi-agent collaboration that mimics the factchecking article writing process of human experts」というフレームワークQRAFTの提案。
- 他手法よりも性能はよいものの「Our evaluation shows that while QRAFT outperforms several previously proposed text-generation approaches, it lags considerably behind expert-written articles.」というのは残念
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
- Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [51.3]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:38 GMT) - overthinkingの防止、効率的な推論に関するサーベイ
- リポジトリはGitHub – Eclipsess/Awesome-Efficient-Reasoning-LLMs
Survey on Evaluation of LLM-based Agents
- Survey on Evaluation of LLM-based Agents [28.9]
LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。 本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:23 GMT) - 「We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) applicationspecific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents.」とエージェントの評価に関するサーベイ
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation
- Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.6]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。 実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 12:51:21 GMT) - 「this paper presents MusiCoT, a novel chain-of-thought prompting technique that enhances high-fidelity music generation by aligning the creative processes of AR models with musical thought.」と音楽生成にもCoT…
- リポジトリはMusiCoT
Gemini 2.5, Deepseek V3, MCP …
週刊LLMが続いている。Gemini 2.5はGoogle Deepmindの最新モデルで非常に性能が高い(Gemini 2.5: Our newest Gemini model with thinking)。Humanity’s Last Examで18.8%と非常に難しいデータセットに対しても性能が上がっていっているのがすごい。Deepseek V3もアップデートが出ており当初のバージョンよりも性能が上がっている(DeepSeek-V3-0324 Release | DeepSeek API Docs、deepseek-ai/DeepSeek-V3-0324 · Hugging Face)。Gemma 3やQwen2.5 Omniのテクニカルレポートにも要注目。
LLM以外でもOpenAIのMCP対応(Model context protocol (MCP) – OpenAI Agents SDK)や画像生成AI(Introducing 4o Image Generation | OpenAI)などバズるニュースが多い。Reve AI | Next-Gen AI Image Generator with Reve Image 1.0など新たな動きもあり、本当に活発な分野である。
- Gemma 3 Technical Report [198.3]
Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。 このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。 また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 15:52:34 GMT)
- Qwen2.5-Omni Technical Report [31.0]
本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。 Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (Wed, 26 Mar 2025 04:17:55 GMT)
Scaling Laws of Synthetic Data for Language Models
- Scaling Laws of Synthetic Data for Language Models [132.7]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。 提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 11:07:12 GMT) - 合成データのScaling lawに関する報告。高品質なデータ生成フレームワークSYnathLLMを前提に「Key findings from our extensive mathematical experiments on SYNTHLLM include: (1) SYNTHLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens.」と合成データの有効性を示唆する結論になっている。
- プロジェクトサイトはAdvancing AI for Humanity。
SynCity: Training-Free Generation of 3D Worlds
- SynCity: Training-Free Generation of 3D Worlds [107.7]
テキスト記述から3次元世界を生成するためのトレーニング不要かつ最適化不要なアプローチであるSynCityを提案する。 3Dと2Dのジェネレータが組み合わさって、拡大するシーンを生成する方法を示す。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:40 GMT) - どこかで聞いたことのあるような論文タイトル。色々とうまく組み合わせている印象の手法だが、作例が面白い。
- リポジトリはSynCity: Training-Free Generation of 3D Worlds
Analyzing the Usage of Donation Platforms for PyPI Libraries
- Analyzing the Usage of Donation Platforms for PyPI Libraries [92.0]
本研究では,PyPIエコシステムにおける寄付プラットフォームの導入状況について分析した。 GitHub Sponsorsが支配的なプラットフォームであるが、多くのPyPIリストのリンクは時代遅れである。
論文 参考訳(メタデータ) (Tue, 11 Mar 2025 10:27:31 GMT) - Pythonライブラリへの寄付に関する分析。「From a library perspective, we discovered that donation platform links are mostly missing on PyPI project pages, with a clear tendency to list them on GitHub repositories instead. GitHub Sponsors stands out as the primary donation platform across PyPI and GitHub.」はそうだろうなーという感じ。
- 「Recent research highlights the strong connection between OSS maintenance activities and financial support.」もあるが、便利に利用しているものについては寄付の文化が広がってほしいところ。
Measuring AI Ability to Complete Long Tasks
- Measuring AI Ability to Complete Long Tasks [6.0]
人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。 Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。 AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 17:59:31 GMT) - 「the time humans typically take to complete tasks that AI models can complete with 50% success rate」を定義とする「50%-task-completion time horizon」というメトリクスの提案と検討。「On these tasks, current frontier AI models such as Claude 3.7 Sonnet have a 50% time horizon of around 50 minutes」、「Furthermore, frontier AI time horizon has been doubling approximately every seven months since 2019, though the trend may have accelerated in 2024.」とのこと。
- どのくらいの規模のソフトウェアを自動生成できるのか?という意味では参考になる指標だと思う。「Finally, we attempt to extrapolate the trend on our tasks to one-month (167 hours) AI (Section 7.1), finding that if both the trend continues and observed performance trends generalize to real-world tasks, an 80% confidence interval for the release date of AI that can complete 1-month long software tasks spans from late 2028 to early 2031」をどう評価するかは悩ましいが、人が一か月かけて開発するレベルのソフトウェアが自動生成できるようになるかも、というのはそうかもしれないという感覚もある。