GPT-NeoX-20B: オープンソースの巨大言語モデル

WikiDiverse: マルチモーダルなエンティティ・リンキングデータセット

  • WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
    MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
    論文  参考訳(メタデータ)   (Wed, 13 Apr 2022 12:52:40 GMT)
    • 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、 ライセンスはCC BY-SA 4.0。 
    • リポジトリはGitHub – wangxw5/wikiDiverse

NumGLUE: 数学的推論のデータセット

  • NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
    8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
    論文  参考訳(メタデータ)   (Tue, 12 Apr 2022 09:36:10 GMT)
    • 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
      • TASK 1 Commonsense + Arithmetic
      • TASK 2 Domain specific + Arithmetic
      • TASK 3 Commonsense + Quantitative
      • TASK 4 Fill-in-the-blanks
      • TASK 5 RC + Explicit Numerical Reasoning
      • TASK 6 RC + Implicit Numerical Reasoning
      • TASK 7 Quantitative NLI
      • TASK 8 Arithmetic word problems
  • プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)