Law of the Weakest Link: Cross Capabilities of Large Language Models

  • Law of the Weakest Link: Cross Capabilities of Large Language Models [102.9]
    我々は,Large Language Models (LLMs) が “Law of the Weakest Link” を示すことを示した。 これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
    論文  参考訳(メタデータ)   (Mon, 30 Sep 2024 05:12:01 GMT)
  • 問題を解こうとする場合、様々な能力が要求されるが、今のLLMは一面の評価にとどまっており総合的な能力(様々なタスクをクロスして問題を解く能力)の評価ができていない。そのような評価を行いFindingsをまとめた論文。「we demonstrated that LLMs consistently conform to the “Law of the Weakest Link,” where cross-capability performance is constrained by the weakest ability.」と直観に反しない結果。
  • リポジトリはGitHub – facebookresearch/llm-cross-capabilities: Official implementation for “Law of the Weakest Link: Cross capabilities of Large Language Models”

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions

  • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.4]
    本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。 我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 19:47:21 GMT)
  • AIエージェントの安全性を確かめるフレームワークの提案
  • プロジェクトサイトはAN ECOSYSTEM FOR SANDBOXING SAFETY RISKS IN HUMAN-AI INTERACTIONS (haicosystem.org)