コンテンツへスキップ
- K2-V2: A 360-Open, Reasoning-Enhanced LLM [89.7]
K2-V2は,スクラッチから構築した360度オープンLLMで,推論適応のための優れた基盤となる。 これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
論文 参考訳(メタデータ) (Fri, 05 Dec 2025 22:53:45 GMT)
- 「We introduce K2, the best fully open-source pretrained large language model (LLM) to date, and ranks competitively against the best open-weight models of its class. As the latest base model in the LLM360 family (Liu et al , 2023; Tao et al , 2024; Liu et al , 2025c; Cheng et al , 2025a), Beyond standard competencies like knowledge and conversation, K2 provides advanced capabilities, including long context consistency, deep mathematical knowledge, and reasoning behaviors. These serve as foundational building blocks that enable sophisticated downstream use cases, such as solving complex math problems and executing agentic workflows.」とオープンかつ強力な性能を主張するLLM
- GitHub – LLM360/k2v2_train: Pre-training codebase for K2-V2、LLM360/K2-V2 · Hugging Faceなどコードやモデルウェイトのみではなくデータなども公開されているよう。
- An Empirical Study of Agent Developer Practices in AI Agent Frameworks [59.9]
大規模言語モデル(LLM)の台頭はエージェントへの関心の高まりを引き起こし、エージェントフレームワークの急速な成長につながった。 エージェントフレームワークが広く使われているにもかかわらず、それらの実践的応用とエージェント開発プロセスにどのように影響するかは未解明のままである。 開発者の80%以上が、特定の開発要件に最も適合するフレームワークを特定するのに苦労していると報告している。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:52:15 GMT)
- エージェントフレームワークのサーベイ。
- 「Specifically, we find that (i) Langchain and CrewAI lower the technical threshold for beginners. (ii) AutoGen and LangChain excel at rapid prototyping. (iii) In terms of functional encapsulation, AutoGen and LangChain are leading in task decomposition and multi-agent collaboration. (iv) Performance optimization is a common shortcoming across all frameworks. (v) Despite their mature ecosystems, AutoGen and LangChain face the highest maintenance complexity.」とのこと。
- メンテナンスについては「6.2.5 Maintainability.」でほとんどのフレームワークが酷評されている・・・
- The 2025 Foundation Model Transparency Index [85.0]
ファウンデーションモデル開発者は世界で最も重要な企業です。 これらの企業がますますコンシークシャルになるにつれて、透明性のプラクティスはどのように進化するのでしょうか? 2025 Foundation Model Transparency Indexは、ファンデーションモデル開発者の透明性を特徴づけ、定量化するための年次取り組みの第3版である。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 00:01:53 GMT)
- 基盤モデルの透明性に関する報告。「The 2024 FMTI reported that transparency was improving, but the 2025 FMTI finds this progress has deteriorated: the average score out of 100 fell from 58 in 2024 to 40 in 2025. Companies are most opaque about their training data and training compute as well as the post-deployment usage and impact of their flagship models.」というのは気がかりではある。
- リポジトリはGitHub – stanford-crfm/fmti: The Foundation Model Transparency Index