FooDI-ML: マルチリンガルな食品画像+説明のデータセット

  • FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
    このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など、広く話されている言語も含まれている。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 13:33:08 GMT)
    • 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
    • リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

ニューラル機械翻訳におけるPre-TrainingとBack-Translation

  • On the Complementarity between Pre-Training and Back-Translation for Neural Machine Translation [63.9]
    事前学習(PT)と後方翻訳(BT)は単言語データを利用するためのシンプルで強力な方法である。 本稿では,PTとBTの相補性について検討する。 我々は、WMT16英語-ルーマニア語と英語-ロシア語ベンチマークで最先端のパフォーマンスを確立する。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 04:01:36 GMT)
    • Pre-Trainingはエンコーダにとってより有益であり、Back-Translationはデコーダを主に改善するとの報告。両社は相互補完可能でTagged BTはより有益であるとのこと。

MK-DUC-01: マルチドキュメントでのキーフレーズ抽出

  • Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset [24.9]
    文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。 ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
    論文  参考訳(メタデータ)   (Sun, 3 Oct 2021 19:10:28 GMT)
    • 文書からのキーフレーズ抽出は重要なタスクで、複数文書をまとめて評価したい場合も多い。本論文ではDUC-2001をベースにマルチドキュメントなキーフレーズ抽出用データセットを作成、現時点の手法をConcat(連結したドキュメントでフレーズ抽出)とMerge(各ドキュメントでフレーズ抽出した結果をマージして再処理)で比較している。

CertainNet: Deep Learningにおける不確かさの推定手法

  • CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.3]
    ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。 本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。 私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
    論文  参考訳(メタデータ)   (Mon, 4 Oct 2021 17:59:31 GMT)
    • 物体検出タスクにおいて不確かさを推定、定量化する手法を提案。クラスに関する不確実性だけでなく、位置や大きさの不確実性も定量化できるとのこと。実用上重要な値であると思う。

事前学習の制度改善と下流タスクの精度の関係

  • Exploring the Limits of Large Scale Pre-training [34.2]
    大規模機械学習の最近の進歩は、事前学習の改善が、ほとんどの下流タスクに好適に反映されることを示唆している。 この現象を考察し、上流の精度を高めると、下流のタスクの性能が飽和することを示す。 本稿では、飽和現象を反映し、上流タスクと下流タスクのパフォーマンスの非線形関係をキャプチャする下流パフォーマンスモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 14:49:00 GMT)
    • 事前学習と下流タスクの精度に関する検証。
    • 上流の精度を高めていくと下流タスクの性能は飽和する、というのは直感に沿っている。一方で「全ての下流タスクでうまく機能する事前訓練済みのチェックポイントは見つけられない」という指摘はそうであろうと思いつつも若干ショックではある。

TLDR9+とTLDRHQ: 大規模要約データセット

  • TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts [23.2]
    Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。 このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
    論文  参考訳(メタデータ)   (Mon, 4 Oct 2021 02:40:55 GMT)

非構造文書からのテーブル構造推定と抽出

  • Scientific evidence extraction [0.0]
    我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Sep 2021 19:42:07 GMT)
    • 簡単そうで(?)難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模(948K≒1M)なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
    • リポジトリはhttps://github.com/microsoft/table-transformer

IMRec(IMpression-aware multi-modal news Recommendation framework):画像+テキストなニュースレコメンデーション

  • Why Do We Click: Visual Impression-aware News Recommendation [108.7]
    この作品は、ユーザーがニュースを閲覧する際に感じる視覚的印象に基づいてクリック決定を行うという事実にインスパイアされている。 本稿では,ニュースレコメンデーションのためのビジュアル・セマンティック・モデリングを用いて,このような視覚印象情報を捉えることを提案する。 さらに、グローバルな視点から印象を検査し、異なるフィールドの配置や印象に対する異なる単語の空間的位置などの構造情報を抽出する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 26 Sep 2021 16:58:14 GMT)
    • 画像を併用してレコメンデーションの精度を上げる研究。様々なセッティングで性能向上を確認している。
    • https://github.com/JiahaoXun/IMRec がリポジトリとのこと。

StoryDB: 多言語なストーリーのデータセットとタスク

  • StoryDB: Broad Multi-language Narrative Dataset [0.3]
    StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
    論文  参考訳(メタデータ)   (Wed, 29 Sep 2021 12:59:38 GMT)
    • 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
    • https://wandb.ai/altsoph/projects が検証結果のよう

CrossCLR: クロスモーダルなContrastive Learning

  • CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
    対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。 これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 30 Sep 2021 08:12:21 GMT)
    • 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。