コンテンツへスキップ
- Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。 ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。 このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) 参考訳(全文) (Sat, 16 Apr 2022 03:12:30 GMT)
- NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (Tue, 12 Apr 2022 09:36:10 GMT)- 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
- TASK 1 Commonsense + Arithmetic
- TASK 2 Domain specific + Arithmetic
- TASK 3 Commonsense + Quantitative
- TASK 4 Fill-in-the-blanks
- TASK 5 RC + Explicit Numerical Reasoning
- TASK 6 RC + Implicit Numerical Reasoning
- TASK 7 Quantitative NLI
- TASK 8 Arithmetic word problems
- プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)
- Dynatask: A Framework for Creating Dynamic AI Benchmark Tasks [31.5]
Dynataskは、カスタムNLPタスクを設定するためのオープンソースのシステムである。 AIのベンチマークを再考する研究プラットフォームであるDynabenchと統合されている。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 5 Apr 2022 00:32:04 GMT)
- XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 21 Mar 2022 06:50:21 GMT)
- SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.3]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。 我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。
論文 参考訳(メタデータ) (Sun, 13 Mar 2022 18:23:37 GMT)
- DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。 既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。 本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 9 Mar 2022 17:46:22 GMT)
- Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks [95.3]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。 まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。 中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文 参考訳(メタデータ) (Wed, 16 Feb 2022 11:59:29 GMT)- 今後ユーザインタフェースとして普及が予想される対話システムにおいて、社内的バイアスの存在が問題視されている。その検出のためのデータセット(中国版)を作成、ベースラインを提供。
- ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。 それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
論文 参考訳(メタデータ) (Fri, 11 Feb 2022 13:32:14 GMT)
- JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。 JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。 F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 3 Feb 2022 18:40:25 GMT)
- DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。 興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。 本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。 近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
論文 参考訳(メタデータ) (Tue, 8 Feb 2022 18:36:52 GMT)