CertainNet: Deep Learningにおける不確かさの推定手法

  • CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.3]
    ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。 本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。 私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
    論文  参考訳(メタデータ)   (Mon, 4 Oct 2021 17:59:31 GMT)
    • 物体検出タスクにおいて不確かさを推定、定量化する手法を提案。クラスに関する不確実性だけでなく、位置や大きさの不確実性も定量化できるとのこと。実用上重要な値であると思う。

事前学習の制度改善と下流タスクの精度の関係

  • Exploring the Limits of Large Scale Pre-training [34.2]
    大規模機械学習の最近の進歩は、事前学習の改善が、ほとんどの下流タスクに好適に反映されることを示唆している。 この現象を考察し、上流の精度を高めると、下流のタスクの性能が飽和することを示す。 本稿では、飽和現象を反映し、上流タスクと下流タスクのパフォーマンスの非線形関係をキャプチャする下流パフォーマンスモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 14:49:00 GMT)
    • 事前学習と下流タスクの精度に関する検証。
    • 上流の精度を高めていくと下流タスクの性能は飽和する、というのは直感に沿っている。一方で「全ての下流タスクでうまく機能する事前訓練済みのチェックポイントは見つけられない」という指摘はそうであろうと思いつつも若干ショックではある。

TLDR9+とTLDRHQ: 大規模要約データセット

  • TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts [23.2]
    Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。 このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
    論文  参考訳(メタデータ)   (Mon, 4 Oct 2021 02:40:55 GMT)

非構造文書からのテーブル構造推定と抽出

  • Scientific evidence extraction [0.0]
    我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Sep 2021 19:42:07 GMT)
    • 簡単そうで(?)難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模(948K≒1M)なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
    • リポジトリはhttps://github.com/microsoft/table-transformer

IMRec(IMpression-aware multi-modal news Recommendation framework):画像+テキストなニュースレコメンデーション

  • Why Do We Click: Visual Impression-aware News Recommendation [108.7]
    この作品は、ユーザーがニュースを閲覧する際に感じる視覚的印象に基づいてクリック決定を行うという事実にインスパイアされている。 本稿では,ニュースレコメンデーションのためのビジュアル・セマンティック・モデリングを用いて,このような視覚印象情報を捉えることを提案する。 さらに、グローバルな視点から印象を検査し、異なるフィールドの配置や印象に対する異なる単語の空間的位置などの構造情報を抽出する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 26 Sep 2021 16:58:14 GMT)
    • 画像を併用してレコメンデーションの精度を上げる研究。様々なセッティングで性能向上を確認している。
    • https://github.com/JiahaoXun/IMRec がリポジトリとのこと。

StoryDB: 多言語なストーリーのデータセットとタスク

  • StoryDB: Broad Multi-language Narrative Dataset [0.3]
    StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
    論文  参考訳(メタデータ)   (Wed, 29 Sep 2021 12:59:38 GMT)
    • 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
    • https://wandb.ai/altsoph/projects が検証結果のよう

CrossCLR: クロスモーダルなContrastive Learning

  • CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
    対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。 これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 30 Sep 2021 08:12:21 GMT)
    • 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。

VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解

  • VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
    我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 23:01:51 GMT)
    • 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA(に近い性能)、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
    • リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404

RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

  • RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
    RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)
    • 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
      • ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
      • Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
      • NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
      • OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
      • Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
      • Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
      • Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
      • TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
      • Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
      • TweetEval Hate (TEH): ヘイトスピーチの検出タスク
      • Twitter complaints (TC): tweetに苦情を含むかを判別
    • プロジェクトサイトはhttps://raft.elicit.org/

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

  • OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
    より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 28 Sep 2021 15:15:57 GMT)