InferWiki: Knowledge Graph Completion(知識グラフの補完)データセット

  • Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.1]
    InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。 各テストサンプルは、トレーニングセットの支持データで予測可能である。 実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
    論文  参考訳(メタデータ)   (Tue, 3 Aug 2021 09:51:15 GMT)
    •  Link Prediction、Triple Classificationタスクを想定したデータセットとベンチマークの提案。既存データセットには予測不可能なtripleや意味のないtripleがあり、構築プロセスに問題があると指摘。予測可能性を保証するため学習/テストデータをランダムスプリットにより作るのではなく一定のルールによりスプリット、手動でアノテーションされたnegativeやunknownの情報を提供、様々な推論パターンを加えるなど工夫したデータセットになっているとのこと。
    • リポジトリはhttps://github.com/TaoMiner/inferwiki

メールスレッドの抽象型要約

  • EmailSum: Abstractive Email Thread Summarization [105.5]
    我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。 このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。 本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 15:13:14 GMT)
  • メールスレッド要約のためのデータセットと様々なモデルの評価結果を報告した論文。Extractiveな要約手法、Abstractiveな要約手法の代表的なものに加え、ラベル無しデータを用いるSemi-supervisedな手法も試している。結果的にT5が良好な結果をしめしたとのこと(Semi-supervisedな手法が勝っている評価指標もある)
  • リポジトリはhttps://github.com/ZhangShiyue/EmailSum

Question Answeringデータセットの調査

  • QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension [41.6]
    我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在の隙間を強調します。 また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
    論文  参考訳(メタデータ)   (Tue, 27 Jul 2021 10:09:13 GMT)
    • 引用数295という大規模なQAデータセットの調査結果。問題の構成、ドメイン、言語など様々な側面でデータセットを分類しており非常に参考になる。モノリンガルなリソースだと、日本語データセットは4番目(1位は英語、2位は中国語、3位はロシア語)に多いとのこと。

COVID-19の感情データセット

  • When a crisis strikes: Emotion analysis and detection during COVID-19 [96.0]
    感情をラベル付けした1万ツイートのCovidEmoを紹介します。 事前学習された言語モデルがドメインや危機をまたいでどのように一般化するかを検討する。
    論文  参考訳(メタデータ)   (Fri, 23 Jul 2021 04:07:14 GMT)
    • COVID-19に関連したtweetをラベル付けしたデータセットCovidEmoの紹介と他のデータセットを用いた場合に転移が可能かを検証、有効でないがドメイン適合により改善可能としている。
    • リポジトリはhttps://github.com/AlexanderTekle/COVIDEmotions

Query-based Video Highlights (QVHighlights) データセット

  • QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.2]
    Query-based Video Highlights (QVHighlights) データセットを提示する。 これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。 データセット内の各ビデオには、(1)人が書いた自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5点満点のsaliencyスコアが注釈付けされている。
    論文  参考訳(メタデータ)   (Tue, 20 Jul 2021 16:42:58 GMT)
    • 自然言語クエリに基づくビデオ検索(シーン検索)のデータセット。1万映像と規模が大きい。ドメインは日常&旅行のvlogとnews。
    • リポジトリはhttps://github.com/jayleicn/moment_detr

MultiBench: マルチモーダルなベンチマーク

  • MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
    MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 17:54:36 GMT)
  • マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
    • Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
    • Healthcare: MIMIC
    • Robotics: MuJoCo Push, Vision & Touch
    • Finance: Stocks-food, Stocks-health, Stocks-tech
    • HCI: ENRICO
    • Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
  • 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
  • https://cmu-multicomp-lab.github.io/multibench/https://github.com/pliang279/MultiBench が公式サイト&リポジトリ

コミットメッセージの自動生成

  • On the Evaluation of Commit Message Generation Models: An Experimental Study [33.2]
    コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。 コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。 本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 02:04:53 GMT)
    • コミットメッセージの自動生成に関する調査。データセット収集も実施、かつ、公開していて今後の研究に有用。話題のcopilotよりもかゆいところに手が届くツールのような気がする。
    • データセット・コード等はhttps://github.com/DeepSoftwareAnalytics/CommitMsgEmpiricalから参照可能。

SynLiDAR: synthetic LiDAR point cloud dataset

  • SynLiDAR: Learning From Synthetic LiDAR Sequential Point Cloud for Semantic Segmentation [37.0]
    SynLiDARは、正確な幾何学的形状と包括的なセマンティッククラスを備えた合成LiDARポイントクラウドデータセットである。 PCT-Netは、現実世界のポイントクラウドデータとのギャップを狭めることを目的としたポイントクラウド翻訳ネットワークである。 複数のデータ拡張および半教師付きセマンティックセグメンテーションタスクに対する実験は、非常に肯定的な結果を示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 12 Jul 2021 12:51:08 GMT)
    • LiDAR point cloudの大規模な合成データセット。仮想の都市や町、港から200k scans ( 19 billion points、32 semantic classes)を収集しているとのこと。合成データではあるが、転送学習を通して現実世界でも活用することが可能。この報告でも肯定的な結果とのこと。

XAI-Bench:XAIの評価指標とベンチマークデータ

  • Synthetic Benchmarks for Scientific Research in Explainable Machine Learning [14.2]
    我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。 実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。 いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 17:10:21 GMT)
    • XAIのベンチマークのため指標をまとめ、合成データセットを作成したとの報告。XAIの評価は難しくこのような取り組みは重要。リアルなデータではベンチマーク構築が難しいことから合成データを用いている。LIMEが良い結果になっていてやや意外ではあった。
    • データ、コード等はhttps://github.com/abacusai/xai-benchから確認可能

SODA10M(large-Scale Object Detection benchmark for Autonomous driving): 大規模物体検出ベンチマーク

  • SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving [94.1]
    我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。 多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。 我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
    論文  参考訳(メタデータ)   (Mon, 21 Jun 2021 13:55:57 GMT)
    • 1000万枚の未ラベル画像と6つのカテゴリをラベル付けした20Kの画像からなるデータセット。多くの都市、気象条件、時間帯などが含まれていて自動運転をターゲットにしている。