GAIA: A Benchmark for General AI Assistants

  • GAIA: a benchmark for General AI Assistants [31.7]
    一般AIアシスタントのベンチマークであるGAIAを紹介します。 GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。 GAIAの質問は、人間にとって概念的には単純だが、ほとんどの高度なAIでは困難である。
    論文  参考訳(メタデータ)   (Tue, 21 Nov 2023 20:34:47 GMT)
  • AIアシスタントのためのベンチマーク、人が92%正解できる一方でツールのアシストがあってもGPT-4の正解率はレベル1でも30%程度と非常に難しく、人間とAIの差が大きく出るタスクになっている。
  • レベル1では5step程度の推論、レベル2では5-10ステップの推論+ツールの利用、レベル3では長いシーケンスの推論が必要とのこと。gaia-benchmark/GAIA · Datasets at Hugging Faceでサンプルがみられる。レベル3は検索しまくらないと解けなさそう。。
  • リポジトリはgaia-benchmark (GAIA) (huggingface.co)

Grammatical Gender’s Influence on Distributional Semantics: A Causal Perspective

  • Grammatical Gender’s Influence on Distributional Semantics: A Causal Perspective [100.5]
    言語間のジェンダーの割り当てにどの程度の意味が影響するかは、現代言語学と認知科学における活発な研究分野である。 我々は、名詞の文法的性別、意味、形容詞選択の間の相互作用を共同で表現する、新しい因果的グラフィカルモデルを提供する。 文法的ジェンダーが形容詞選択にほぼゼロ効果があることに気付き、ネオ・ヴォルフの仮説を疑問視する。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 13:58:13 GMT)
  • ドイツ語、ヘブライ語、ポーランド語、ポルトガル語、スペイン語のwikipediaダンプからcausal graphical modelを作り分析、「we provide further evidence against the neo-Whorfian hypothesis.」とのこと
  • 大規模データ+causal graphical modelでとても面白い