データセット – ページ 30 – arXiv最新論文の紹介

IMFW(Indian Masked Faces in the Wild): マスクをした人の顔認識

Indian Masked Faces in the Wild Dataset [86.8]
本研究では,ポーズ,照明,解像度,被検者の着用するマスクの多様さを特徴とする,IMFWデータセットを新たに提案する。また,提案したIMFWデータセットにおいて,既存の顔認識モデルの性能をベンチマークした。
論文参考訳（メタデータ） (Thu, 17 Jun 2021 17:23:54 GMT)
- COVID-19で重要になったマスクをした状況での顔認識。既存の顔認識モデルだといろいろな限界があるとのこと。
- データなどはhttp://www.iab-rubric.org/resources/imfw.htmlから参照可能。

DUO（Detecting Underwater Objects）のデータセット・ベンチマーク

A Dataset And Benchmark Of Underwater Object Detection For Robot Picking [29.0]
我々は,すべての関連するデータセットの収集と再アノテーションに基づいて,データセット,水中オブジェクトの検出(DUO)およびそれに対応するベンチマークを紹介する。 DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。対応するベンチマークは、学術研究および産業応用のためのSOTAの効率と精度の指標を提供する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 10 Jun 2021 11:56:19 GMT)
- 水中での物体検出タスクのデータセット。代表的な手法のベンチマークも記載されている。水中での物体認識においては、深いネットワーク構造が役に立たないように見えるという指摘が興味深い。
- データセットはhttps://github.com/chongweiliuで公開予定とのこと。

cLang-8: 文法誤り訂正タスクSOTA&データセット

A Simple Recipe for Multilingual Grammatical Error Correction [6.3]
本稿では,最新の多言語文法的誤り訂正(GEC)モデルを学習するためのレシピを提案する。まず,多数の合成例を生成するための言語に依存しない手法を提案する。第2の要素は、大規模多言語言語モデルを使用することである。
論文参考訳（メタデータ） (Mon, 7 Jun 2021 17:47:04 GMT)
- 大規模事前学習モデルmT5＋データクリーニングによってGECでSOTA。データ数が一定以上であればクリーニングは効果的、モデル規模の増加は性能向上に効果的であったと意外性はないが重要な結果。
- データセット等はhttps://github.com/google-research-datasets/clang8からアクセス可能とのこと。

LUSS　教師無し学習前提のセマンティックセグメンテーションのデータセット

Large-scale Unsupervised Semantic Segmentation [163.4]
本稿では, 大規模教師無しセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。 ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文参考訳（メタデータ） (Sun, 6 Jun 2021 15:02:11 GMT)
- 教師無し前提のセマンティックセグメンテーションタスク。規模が大きく様々な場所で用いられそう。

レイアウト構造を利用した自然言語処理

Incorporating Visual Layout Structures for Scientific Text Classification [31.2]
本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
論文参考訳（メタデータ）参考訳（全文） (Tue, 1 Jun 2021 17:59:00 GMT)
- レイアウト情報は重要な情報源であり、うまく活用できた時の効果は大きいと思う。
- データセットとコードはhttps://github.com/allenai/VILAで公開予定とのこと。

GLUEの韓国語版

KLUE: Korean Language Understanding Evaluation [43.9]
韓国語理解評価(KLUE)ベンチマークを紹介する。 KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文参考訳（メタデータ） (Fri, 21 May 2021 05:54:22 GMT)
- GLUEの韓国語版。XTREMEとか多言語ベンチマークで代替できる可能性はあるとはいえ、英語以外の各国語版ベンチマークの重要性は変わっていないと思う。
- 日本語版も欲しい（作れという話もあるが）

GPTによるコードの生成

Measuring Coding Challenge Competence With APPS [54.2]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ）参考訳（全文） (Thu, 20 May 2021 17:58:42 GMT)
- プログラミングの自動化（コード自動生成）を目指した論文、ベンチマークデータセット
- GPT-NEOは一定数の問題を解いたようで今後の発展が期待される。

要約用（小説、戯曲、物語）のデータセット

BookSum: A Collection of Datasets for Long-form Narrative Summarization [42.3]
booksumは長文要約のためのデータセットのコレクションである。我々のデータセットは、小説、戯曲、物語などの文学分野の資料をカバーしています。
論文参考訳（メタデータ） (Tue, 18 May 2021 00:22:46 GMT)
- 既存の要約データセットにはスタイルやレイアウトなど強力なバイアス（ヒント？）が含まれていることが多い。この問題を解決するデータセットになっているとのこと。
- https://github.com/salesforce/booksum　にデータ等が公開されている。

動画ー3次元メッシュのデータセット

SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data [124.3]
sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
論文参考訳（メタデータ） (Tue, 18 May 2021 15:42:37 GMT)
- 時間方向も使って動画像からオブジェクト認識をするのは自然な発想。こういうこともできるようになってきたのだと感慨深い。
- http://sailvos.web.illinois.edu/_site/index.html　で公開予定とのこと。

会話ドメインのQAデータセット

QAConv: Question Answering on Informative Conversations [85.3]
本稿では,会話を知識源として利用するQAデータセットであるQAConvを紹介する。ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文参考訳（メタデータ） (Fri, 14 May 2021 15:53:05 GMT)
- 会話をベースとしたQuestion Answering、1万会話、3万QAと結構な数がある。githubのリーダーボードが盛り上がるか＆その手法を要チェック。
- https://github.com/salesforce/QAConv