SocialAI: 社会的スキルのためのベンチマーク

  • SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.7]
    人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
    論文  参考訳(メタデータ)   (Fri, 2 Jul 2021 10:39:18 GMT)
  • DRL(Deep Reinforcement Learning)のための社会的スキル獲得を評価するベンチマーク。Intertwinded multimodality、 Theory of Mind(ToM)、 Pragmatic framesといったソーシャルスキルに関連するタスクを設定。
  • 詳細はhttps://sites.google.com/view/socialaiから確認可能

XAI-Bench:XAIの評価指標とベンチマークデータ

  • Synthetic Benchmarks for Scientific Research in Explainable Machine Learning [14.2]
    我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。 実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。 いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 17:10:21 GMT)
    • XAIのベンチマークのため指標をまとめ、合成データセットを作成したとの報告。XAIの評価は難しくこのような取り組みは重要。リアルなデータではベンチマーク構築が難しいことから合成データを用いている。LIMEが良い結果になっていてやや意外ではあった。
    • データ、コード等はhttps://github.com/abacusai/xai-benchから確認可能

GEM(General Evaluation benchmark for Multimodal tasks):マルチモーダルなベンチマーク

  • GEM: A General Evaluation Benchmark for Multimodal Tasks [25.8]
    マルチモーダルタスクの総合評価ベンチマークとしてGEMを提案する。 GEMは、画像言語タスクのGEM-Iとビデオ言語タスクのGEM-Vからなる大規模な視覚言語ベンチマークである。 我々は,多言語マルチモーダル研究の発展を目指して,データセット,コード,ベースラインモデルをリリースする。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 03:14:13 GMT)
    • 視覚-言語のベンチマークデータセット、多言語で構成されていることも特徴。少なめだが日本語も入っている。
    • データ等は https://github.com/microsoft/GEM から参照可能。