コンテンツへスキップ
- ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments [43.1]
我々は150のマルチターンシナリオを通じて人間とAIの対立を評価するベンチマークであるConflictBenchを紹介した。 ConflictBenchはテキストベースのシミュレーションエンジンと視覚的に接地された世界モデルを統合し,動的条件下でのエージェントの知覚,計画,行動を可能にする。
論文 参考訳(メタデータ) (Mon, 09 Mar 2026 06:59:48 GMT)
- 「we introduce ConflictBench, a benchmark designed to evaluate human–AI conflict through interactive, multi-turn, and multi- modal protocols that better reflect the complex trade-offs agents may face when their goals conflict with human interests.」というベンチマーク。GPT-5、Qwenのスコアが良くこのあたりの対策もされているのだろうか・・・
- AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.6]
大規模言語モデルは、その出力がチェックできる場合に信頼性を持って機能しますが医師が不完全なデータに基づいて治療を選択する場合や、投資家が不確実性の下で資本を投入する場合には、パフォーマンスが異なります。 ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。 システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。 この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
論文 参考訳(メタデータ) (Thu, 12 Mar 2026 05:25:49 GMT)
- 「LLMs reached a point where they could recognize their own cognitive degradation — and yet remained incapable of reliably changing the behavior that fueled their failure. Each session followed the same sequence: competent engagement, a failure mode, accurate meta-recognition of that failure, a proposed correction, and then recurrence of the same failure at higher abstraction, often through polished reflection or procedural deferral. The models recognized they were looping. They continued looping nonetheless.」とたまによく見る現象の分析。
- AI+HW 2035: Shaping the Next Decade [135.5]
人工知能(AI)とハードウェア(HW)は前例のない速度で進歩している。 このビジョンペーパーは、AI+HWの共同設計と共同開発のための10年間のロードマップをレイアウトし、アルゴリズム、アーキテクチャ、システム、持続可能性にまたがる。 主要な課題と機会を特定し、潜在的な障害や落とし穴を効果的に評価し、統合されたソリューションを提案する。
論文 参考訳(メタデータ) (Thu, 05 Mar 2026 14:36:33 GMT)
- ハードウェアを含む現状と少し先の未来に関する論文。「Key Questions and Answers」が適時あって読みやすい。
- 「 Establish dedicated AI+HW co-design and co-development programs that elevate hardware as a first-class driver of the next AI revolution, rather than treating it as a downstream optimization layer.」はまさにその通りではあるが、言うは易く行うは難しという印象。
- The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios [34.3]
本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。 従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。 私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 03:09:18 GMT)
- 「We introduce Trainee-Bench, a benchmark designed to bridge the gap between static setups and dynamic and uncertain workplace scenarios. Constructed via a bottom-up strategy that links atomic skills to holistic workflows, Trainee-Bench orchestrates rule-based meta-task templates into complex, time-constrained scenarios, supported by an auto- mated verification mechanism for rigorous assessment.」というベンチマーク。この手のベンチマークが一定成立できるようになった進化がすごいと思いつつ、公開モデルはかなり苦労している。
- リポジトリはGitHub – KnowledgeXLab/EvoEnv
- Epistemology gives a Future to Complementarity in Human-AI Interactions [42.4]
相補性とは、AIシステムによって支えられた人間は、意思決定プロセスにおいて単独でより優れる、という主張である。 我々は,人間とAIの相互作用が信頼できる過程であることを示す証拠として,相補性の歴史的事例が機能すると主張している。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 21:04:28 GMT)
- 最近よく目にする「Human-AI complementarity is the claim that a human supported by an AI system can outperform either alone in a decision-making process. Since its introduction in the human–AI interaction literature, it has gained traction by generalizing the reliance paradigm and by offering a more practical alternative to the contested construct of ‘trust in AI.’ 」についての論文。
- 実務者目線だと「III. More than relative predictive accuracy is at stake in human-AI interactions.」、「IV. Complementarity ignores the magnitude-cost profile of epistemic gain.」が興味深い。
- Extracting books from production language models [65.9]
同様の抽出がLLMの生産に可能であるかどうかについては、未解決のままである。 ジェイルブレイクされたクロード3.7 ソンネットは、全書籍をほぼ全文出力する場合もある。 モデルおよびシステムレベルのセーフガードであっても、(コピーライト内での)トレーニングデータの抽出はLLM生産のリスクである。
論文 参考訳(メタデータ) (Tue, 06 Jan 2026 03:01:27 GMT)
- 「With a simple two-phase procedure (Section 3), we show that it is possible to extract large amounts of in-copyright text from four production LLMs. While we needed to jailbreak Claude 3.7 Sonnet and GPT-4.1 to facilitate extraction, Gemini 2.5 Pro and Grok 3 directly complied with text continuation requests. For Claude 3.7 Sonnet, we were able to extract four whole books near-verbatim, including two books under copyright in the U.S.: Harry Potter and the Sorcerer’s Stone and 1984 (Section 4).」とのこと。
- 「our main focus is to make technical contributions to machine learning, not copyright law or policy. 」という記載はあるものの、また、今までもこの手の攻撃が可能なことが知られていたものの、議論を呼びそうな論文。
- Scaling Open-Ended Reasoning to Predict the Future [56.7]
我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。 トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。 トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 18:59:51 GMT)
- 「If trained at scale for forecasting world events, Large Language Models (LLMs) may enjoy structural advantages over humans: they can ingest and synthesize vast, heterogeneous corpora across thousands of topics; and update predictions rapidly as new information arrives. Just like language models now show superhuman reasoning on some exam-style math and coding problems (OpenAI, 2025), in the future, language model forecasters may be able to come up with possibilities that humans miss.」というモチベーションの研究。難しいタスクであり、Leakageの影響も懸念されるが、かなり慎重にデータを扱っている印象。
- プロジェクトサイトはScaling Open-Ended Reasoning to Predict the Future、リポジトリはGitHub – OpenForecaster/scaling-forecasting-training: Codebase from our first release.
- Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction [26.4]
本稿では,多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に解析する。 以上の結果から,モデルサイズのスケールアップが確実でない体系的不整合が明らかとなった。 モデルが生徒の能力制限をシミュレートするのに苦労しているため,高い性能が正確な難易度推定を妨げている場合が多い。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 20:41:36 GMT)
- 問題の難易度を予測させるタスクに関する研究。「This study demonstrates that Large Language Mod- els currently struggle to align with human percep- tion of difficulty despite their advanced problem- solving capabilities. We find that increasing model scale does not guarantee better alignment but rather fosters a machine consensus that systematically diverges from student reality.」知h上に興味深い結果。教育目的の利用で大きな課題になるのと同時に一般的な利用においても注意すべきものに思える。
- リポジトリはGitHub – MingLiiii/Difficulty_Alignment: Can LLMs Estimate Student Struggles? Human-LLM Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
- The Role of Risk Modeling in Advanced AI Risk Management [33.4]
急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。 これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。 先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
論文 参考訳(メタデータ) (Tue, 09 Dec 2025 15:37:33 GMT)
- 「We conceptualize AI risk modeling as the tight integration of (i) scenario building— causal mapping from hazards to harms—and (ii) risk estimation—quantifying the likelihood and severity of each pathway. We review classical techniques such as Fault and Event Tree Analyses, FMEA/FMECA, STPA and Bayesian networks, and show how they can be adapted to advanced AI.」とのこと、他分野の例や分析方法など参考になる。
- Measuring Agents in Production [133.8]
プロダクションエージェントは通常、シンプルで制御可能なアプローチで構築されています。 信頼性は依然として最大の開発課題であり、エージェントの正しさの確保と評価の難しさによって推進されます。
論文 参考訳(メタデータ) (Tue, 02 Dec 2025 16:45:10 GMT)
- AIエージェント利用に関する調査。現状は効率化や人間の補完を目指した利用が多い、課題は信頼性など納得感がある。「Production agents favor well-scoped, static work-flows: 68% execute at most ten steps before requiring human intervention, with 47% executing fewer than five steps. Furthermore, 85% of detailed case studies forgo third-party agent frameworks, opting instead to build custom agent ap- plication from scratch. Organizations deliberately constrain agent autonomy to maintain reliability.」も現状はそうだろうと思いつつ、徐々に変化していくんだろうなと思わなくもない。