Image Captioningタスクのサーベイ

  • From Show to Tell: A Survey on Image Captioning [49.0]
    視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。 画像キャプションの研究はまだ結論に達していない。 本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 18:00:54 GMT)
    • 画像からの文章生成(キャプション生成)に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表(13ページは必見)とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
    • 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。

ユーザの入力に基づいた画像生成のサーベイ

  • Deep Image Synthesis from Intuitive User Input: A Review and Perspectives [23.0]
    コンピュータグラフィックス、アート、デザインの多くの応用において、ユーザはテキスト、スケッチ、ストローク、グラフ、レイアウトといった直感的な非画像入力を提供し、入力内容に準拠したフォトリアリスティックな画像を自動的に生成するコンピュータシステムを持つことが望ましい。 GAN(Generative Adversarial Network)やVAE(Variational autoencoders )、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。 本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
    論文  参考訳(メタデータ)   (Fri, 9 Jul 2021 06:31:47 GMT)
    • 画像生成に関するサーベイ。流行の手法、データセット、評価指標など一通りの内容が記載されていて勉強になる。

低リソースでのニューラル機械翻訳サーベイ

  • A Survey on Low-Resource Neural Machine Translation [106.5]
    我々は、低リソースNMTに関する調査を使用した補助データに基づいて(1)ソースおよび/またはターゲット言語の単言語データの活用,(2)補助言語からのデータの活用,(3)マルチモーダルデータの活用の3つのカテゴリに分類する。 私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
    論文  参考訳(メタデータ)   (Fri, 9 Jul 2021 06:26:38 GMT)
    • リソースが少ない状況下でのニューラル機械翻訳に関するサーベイ。モノリンガルコーパスの利用、他言語データによる補助(マルチリンガル性や転移学習の利用)、マルチモーダルデータの利用など3つのカテゴリに分けてまとめている。この分野の概観を知るために良い資料であると思う。

Deep Neural Networksの不確実性に関するサーベイ

  • A Survey of Uncertainty in Deep Neural Networks [39.7]
    これは、ニューラルネットワークにおける不確実性推定に関心のある人に、幅広い概要と導入を提供することを目的としている。 最も重要な不確実性源を包括的に紹介し、再現可能なモデル不確実性への分離と、再現可能なデータ不確実性について述べる。 本稿では,ニューラルネットワークのキャリブレーションに対する様々な不確実性,アプローチ,既存のベースラインと実装の概要について論じる。
    論文  参考訳(メタデータ)   (Wed, 7 Jul 2021 16:39:28 GMT)
    • DNNの不確実性を幅広く扱ったサーベイで41ページ、345件の論文を引用と大作。不確実性とのタイトルだが、DNNを社会実装する際の危険性を知るために非常に参考になるとの印象。推定や対策として提案されている手法についての解説もある。
      • 「不確実性の推定」と言われると個人的には違和感があるが……

対話要約データセットとモデルのサーベイ

  • A Survey on Dialogue Summarization: Recent Advances and New Frontiers [19.1]
    本稿では、利用可能な研究データセットの概要と、入力対話の領域に従って既存の作業を要約し、統一されたメトリクスの下でリーダーボードを編成する。 コミュニティに迅速なアクセスと,この課題の全体像を提供し,今後の研究を動機付けることを願っている。
    論文  参考訳(メタデータ)   (Wed, 7 Jul 2021 12:11:14 GMT)
    • 対話要約に関するサーベイ。通常のDocument summarizationとは似て非なるタスク。会議、会話、e-mailのやり取り、カスタマーサービス、医療と対象とするドメインも様々。非常に参考になる。

Neural Speech Synthesisのサーベイ

  • A Survey on Neural Speech Synthesis [110.4]
    テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。 我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 16:50:51 GMT)
    • 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。

知識ベースQA、テキスト生成のサーベイ

  • A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions [41.7]
    知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。 複雑なKBQAの典型的な課題と解決策を精巧に要約する。
    論文  参考訳(メタデータ)   (Tue, 25 May 2021 03:45:30 GMT)
    • 知識ベースを用いたQuestion Answeringタスクのおける意味解析、情報検索などのアプローチを中心としたサーベイ。カテゴリ分けなど参考になる。
  • Pretrained Language Models for Text Generation: A Survey [46.0]
    本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。 我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
    論文  参考訳(メタデータ)   (Tue, 25 May 2021 01:19:47 GMT)
    • 事前学習モデルをテキスト生成に使うという研究のサーベイ。この分野を概観するのによい資料。実用にはControllable Generationは非常に重要だと思うのだが道半ばという印象。