- Law of the Weakest Link: Cross Capabilities of Large Language Models [102.9]
我々は,Large Language Models (LLMs) が “Law of the Weakest Link” を示すことを示した。 これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (Mon, 30 Sep 2024 05:12:01 GMT) - 問題を解こうとする場合、様々な能力が要求されるが、今のLLMは一面の評価にとどまっており総合的な能力(様々なタスクをクロスして問題を解く能力)の評価ができていない。そのような評価を行いFindingsをまとめた論文。「we demonstrated that LLMs consistently conform to the “Law of the Weakest Link,” where cross-capability performance is constrained by the weakest ability.」と直観に反しない結果。
- リポジトリはGitHub – facebookresearch/llm-cross-capabilities: Official implementation for “Law of the Weakest Link: Cross capabilities of Large Language Models”
日: 2024年10月8日
HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
- HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。 我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (Tue, 24 Sep 2024 19:47:21 GMT) - AIエージェントの安全性を確かめるフレームワークの提案
- プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)