コンテンツへスキップ
- Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 4 May 2022 15:33:00 GMT)- データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
- 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。
- WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.4]
我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。 分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。 提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 21 Apr 2022 14:56:53 GMT)
- Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。 ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。 このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) 参考訳(全文) (Sat, 16 Apr 2022 03:12:30 GMT)
- Summarization with Graphical Elements [55.6]
本稿では,グラフィカル要素による要約という新しい課題を提案する。 タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
論文 参考訳(メタデータ) (Fri, 15 Apr 2022 17:16:41 GMT)- ナレッジグラフのような形で要約する新しい要約タスクの提案とデータセット、ベースモデルの提示。提案されたデータセットでは関係として「L = {who, what, what happens, what happened, what will happen, where, when, why}」が与えられており、このような関係で結ばれた小さな要約で構成されていると確かに読みやすい。
- ViViD++: Vision for Visibility Dataset [14.8]
様々な輝度条件をターゲットとした多様な視覚データフォーマットを抽出したデータセットを提案する。 代替センサーの可能性にもかかわらず、代替視覚センサーを備えたデータセットは依然として少ない。 これらの測定結果と慣性センサーと接地構造を併用して,照明不良下でのロバストな視力SLAMを開発する。
論文 参考訳(メタデータ) (Thu, 14 Apr 2022 00:38:12 GMT)
- WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
論文 参考訳(メタデータ) (Wed, 13 Apr 2022 12:52:40 GMT)- 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、 ライセンスはCC BY-SA 4.0。
- リポジトリはGitHub – wangxw5/wikiDiverse
- NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (Tue, 12 Apr 2022 09:36:10 GMT)- 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
- TASK 1 Commonsense + Arithmetic
- TASK 2 Domain specific + Arithmetic
- TASK 3 Commonsense + Quantitative
- TASK 4 Fill-in-the-blanks
- TASK 5 RC + Explicit Numerical Reasoning
- TASK 6 RC + Implicit Numerical Reasoning
- TASK 7 Quantitative NLI
- TASK 8 Arithmetic word problems
- プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)
- EntSUM: A Data Set for Entity-Centric Summarization [27.8]
制御可能な要約は、ユーザが指定した側面や好みを考慮に入れた要約を提供することを目的としている。 本稿では、制御可能な要約のための人間アノテーション付きデータセットEntSUMを紹介し、制御の側面として名前付きエンティティに焦点を当てる。
論文 参考訳(メタデータ) (Tue, 5 Apr 2022 13:45:54 GMT)
- Fantastic Questions and Where to Find Them: FairytaleQA — An Authentic Dataset for Narrative Comprehension [136.8]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。 FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文 参考訳(メタデータ) (Sat, 26 Mar 2022 00:20:05 GMT)- 物語ドメインのQAデータセット。規模はそれなりという感じだが、セクション限定を行わない場合、長めのテキストを扱う必要がありそう。
- How Do We Answer Complex Questions: Discourse Structure of Long-form Answers [52.0]
3つのデータセットから収集した長文回答の機能構造について検討した。 私たちの主な目標は、人間が複雑な答えを作るためにどのように情報を整理するかを理解することです。 我々の研究は、長期QAシステムの談話レベルのモデリングと評価に関する将来の研究に刺激を与えることができる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 21 Mar 2022 15:14:10 GMT)