データセットの価格

  • Data Pricing in Machine Learning Pipelines [6.7]
    マシンラーニングパイプラインでは,3つの重要なステップで価格設定に重点を置いています。 データ収集のトレーニング段階における価格の理解のために、原データセットとデータラベルの価格についてレビューする。 また、機械学習モデルの協調トレーニングの段階における価格についても検討する。
    論文  参考訳(メタデータ)   (Wed, 18 Aug 2021 00:57:06 GMT)
    • machine learning pipeline(生データの収集、ラベリング、(協調した)学習、モデル自体)を価格に注目して整理した論文。データの価格には様々な要素があることが示され一筋縄ではいかないことが分かる。

MMChat: Multi-Modal Chat Dataset

  • MMChat: Multi-Modal Chat Dataset on Social Media [8.9]
    MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。 画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 15:27:49 GMT)
    • マルチモーダルな対話データセット。120K対話、200K画像と大規模。
    • 「コンテンツに対するURLだけが、ダウンロードスクリプトとともにリリースされる」「ユーザーは、学術的な目的以外にMMCHATを乱用しないことを約束する保証状に署名する必要がある」とのことで簡単にダウンロードできるデータでは無いよう。

時間に鋭敏なQAデータセット

  • A Dataset for Answering Time-Sensitive Questions [89.0]
    時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。 時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。 既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
    論文  参考訳(メタデータ)   (Fri, 13 Aug 2021 16:42:25 GMT)
    • 時間に鋭敏なQAデータセットとのことで、「長い文書における時間情報の明示的および暗黙的な言及の両方を理解する必要がある」「比較、加算、減算のような時間的推論を行う必要がある」データセットとして設計されているとのこと。現状SOTAのモデル(BigBirdやFiD)でも全く人間に及ばない性能しか出せないとのことで難しいデータセットになっている。
    • リポジトリはhttps://github.com/wenhuchen/Time-Sensitive-QAとのことだが、現時点では404

FoodLogoDet-1500:大規模な食品ロゴのデータセット

  • FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via Multi-Scale Feature Decoupling Network [55.5]
    高度な食品ロゴ検出アルゴリズムを開発するには、大規模な食品ロゴデータセットが緊急に必要である。 FoodLogoDet-1500は、1500のカテゴリ、約10万の画像、約15万個の手動で注釈付けされた食品ロゴオブジェクトを備えた、新しい大規模一般公開の食品ロゴデータセットである。 食品のロゴを識別する手法として,MFDNet(Multi-scale Feature Decoupling Network)を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 10 Aug 2021 12:47:04 GMT)
    • 食品のロゴをアノテーションしたデータセット。15Kカテゴリ、100K画像、150Kオブジェクトと大規模。著者らはMFDNetというモデルを提案、他の様々な手法に比べて優れていたと報告している。
    • リポジトリはhttps://github.com/hq03/FoodLogoDet-1500-Dataset、現時点ではデータはアップロードされていないよう。

CIRR( Composed Image Retrieval on Real-life images)データセットとCIRPLANT(Composed Image Retrieval using Pretrained LANguage Transformers )モデル

  • Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
    合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。 比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 13:25:06 GMT)
  • テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
  • プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/

I2V-GAN:infrared-to-visible-GAN、赤外線映像から可視光映像への変換

  • I2V-GAN: Unpaired Infrared-to-Visible Video Translation [14.2]
    本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。 本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。 実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
    論文  参考訳(メタデータ)   (Wed, 4 Aug 2021 05:24:30 GMT)
  • 赤外線の映像から可視光の映像に変換するモデルの提案。赤外線可視光変換ネットワークI2V-GANは優れた性能を出したとのこと。本件に使用した12 CLIP、24kフレームのデータセットもIRVIという名前で公開されている。
  • コードとデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。

InferWiki: Knowledge Graph Completion(知識グラフの補完)データセット

  • Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.1]
    InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。 各テストサンプルは、トレーニングセットの支持データで予測可能である。 実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
    論文  参考訳(メタデータ)   (Tue, 3 Aug 2021 09:51:15 GMT)
    •  Link Prediction、Triple Classificationタスクを想定したデータセットとベンチマークの提案。既存データセットには予測不可能なtripleや意味のないtripleがあり、構築プロセスに問題があると指摘。予測可能性を保証するため学習/テストデータをランダムスプリットにより作るのではなく一定のルールによりスプリット、手動でアノテーションされたnegativeやunknownの情報を提供、様々な推論パターンを加えるなど工夫したデータセットになっているとのこと。
    • リポジトリはhttps://github.com/TaoMiner/inferwiki

メールスレッドの抽象型要約

  • EmailSum: Abstractive Email Thread Summarization [105.5]
    我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。 このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。 本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 15:13:14 GMT)
  • メールスレッド要約のためのデータセットと様々なモデルの評価結果を報告した論文。Extractiveな要約手法、Abstractiveな要約手法の代表的なものに加え、ラベル無しデータを用いるSemi-supervisedな手法も試している。結果的にT5が良好な結果をしめしたとのこと(Semi-supervisedな手法が勝っている評価指標もある)
  • リポジトリはhttps://github.com/ZhangShiyue/EmailSum

Question Answeringデータセットの調査

  • QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension [41.6]
    我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在の隙間を強調します。 また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
    論文  参考訳(メタデータ)   (Tue, 27 Jul 2021 10:09:13 GMT)
    • 引用数295という大規模なQAデータセットの調査結果。問題の構成、ドメイン、言語など様々な側面でデータセットを分類しており非常に参考になる。モノリンガルなリソースだと、日本語データセットは4番目(1位は英語、2位は中国語、3位はロシア語)に多いとのこと。

COVID-19の感情データセット

  • When a crisis strikes: Emotion analysis and detection during COVID-19 [96.0]
    感情をラベル付けした1万ツイートのCovidEmoを紹介します。 事前学習された言語モデルがドメインや危機をまたいでどのように一般化するかを検討する。
    論文  参考訳(メタデータ)   (Fri, 23 Jul 2021 04:07:14 GMT)
    • COVID-19に関連したtweetをラベル付けしたデータセットCovidEmoの紹介と他のデータセットを用いた場合に転移が可能かを検証、有効でないがドメイン適合により改善可能としている。
    • リポジトリはhttps://github.com/AlexanderTekle/COVIDEmotions