PICa(Prompts GPT3 via the use of Image Captions): 画像キャプショニング+GPT-3によるVisual Question Answering

  • An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
    本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。 まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 17:51:06 GMT)
    • 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
      • GPT-3は何をどこまで知っているのだろう・・・?という感想

HyperCLOVA: 韓国の大規模事前学習モデル

  • What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.6]
    GPT-3は、数千億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。 韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版、HyperCLOVAを紹介する。 我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 03:32:19 GMT)
    • NAVERが構築した大規模事前学習モデルHyperCLOVAの論文。few-shotやPrompt tuningによる高い性能を確認。社内でHyperCLOVA StudioというNo Code AI paradigmを利用しているとのこと。

M5Product: 600万以上のマルチモーダルデータセット

  • M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.8]
    我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Sep 2021 13:50:22 GMT)
    • e-コマースの画像、テキスト、テーブル、ビデオ、オーディオを含む6M件と大規模なマルチモーダルデータセット。このデータをもとにした検索・分類・クラスタリングなどのタスクで優れた性能を出すM5-MMTをベースラインとして提案。
    • プロジェクトサイトはhttps://xiaodongsuper.github.io/M5Product_dataset/

最近公開化された画像-テキスト 4億ペアからなるLAION-400M などマルチモーダルな大規模データセットが公開されるのは非常にありがたい。

MATE(Multi-view Attention for Table transformer Efficiency): 大きなテーブルを含む文書をモデル化

  • MATE: Multi-view Attention for Table Transformer Efficiency [21.5]
    ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。 現在のTransformerモデルは一般的に512トークンに制限されている。 本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Sep 2021 14:39:30 GMT)
    • WEBページなどによくあるテーブル構造をモデル化可能な(シーケンス長が長く効率的な)transformerモデルを提案、HybridQAなどでsotaとのこと。
    • 一般的に表形式データが混在したWEBページの扱いは難しいのでこの研究には興味津々。

Talk-to-Edit: 対話による顔編集

  • Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.9]
    Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。 我々の重要な洞察は、GANラテント空間における連続的な「セマンティックフィールド」をモデル化することである。 本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
    論文  参考訳(メタデータ)   (Thu, 9 Sep 2021 17:17:59 GMT)
    • 自然なやりとりによって(例えば「もう少し笑って」と入力)顔画像を編集するフレームワークを提案、より連続的に変化させられるモデルを構築できたとのこと。システム実現のため自然言語と画像の組み合わせであるCelebA-Dialogというデータセットを作成、公開している。
    • プロジェクトサイトはhttps://www.mmlab-ntu.com/project/talkedit/、画像を見るとどのようなものかよく分かる。リポジトリはhttps://github.com/yumingj/Talk-to-Edit、Colabでモデルを試すことも可能でとても面白い。

HintedBT: Back Translationの効率化

  • HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints [7.5]
    標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である 私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。 これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Sep 2021 17:43:20 GMT)
    • 高品質BTデータと低品質BTデータについてタグを付与することによりBack Translationの有効性を上げられるとの報告。LaBSEによるHintが有効とのことでマルチリンガルな分散表現の活用は有効のよう。(FuguMTでも使わせてもらっている)

EPRNN(Evolutionary Plastic Recurrent Neural Networks): 進化的可塑的回帰型ニューラルネットワーク

  • Do What Nature Did To Us: Evolving Plastic Recurrent Neural Networks For Task Generalization [38.8]
    進化的プラスチックリカレントニューラルネットワーク(EPRNN)というフレームワークを提案する。 EPRNNは、進化戦略、塑性規則、再帰に基づく学習を1つのメタ学習フレームワークで構成し、異なるタスクに一般化する。 EPRNNの内ループでは,再帰学習機構を用いて塑性を鍛造することにより,長期記憶と短期記憶の両方を効果的に実現している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Sep 2021 11:34:14 GMT)
    • 生物学的なニューラルネットワークに存在する塑性規則をRNNに自然な形で入れ込むという研究。(最後の結果からのみ学習するのではなく)観測列をもとに学習したいというモチベーションでRNNを選んだとのこと。RNNにおける長期記憶の欠如をPRNNが改善することを確認。
      • 観測中にWとhを順次変更するセッティングを追加したRNNをPRNNと呼んでいるっぽい。確かにこっちの方が自然に思える。一方でRNN以後登場した複雑なモデル構築の戦略として有効かは研究の発展を待ちたいところ。EPRNNはPRNNに進化戦略的アプローチを取り入れ、異なるWorker間のパラメータを共有しながら更新していく(最適なパラメータを求めに行く)もののよう。

FairytaleQA : 子どものストーリーブックに対するQA

  • It is AI’s Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset [30.6]
    教育応用においては、教師や親は、言語学習結果を最大化できる子どもにどんな質問をすべきか分からないことがある。 新たにリリースされた書籍QAデータセット(FairytaleQA)を用いて,本アプリケーションのための自動QA生成モデルアーキテクチャを開発した。
    論文  参考訳(メタデータ)   (Wed, 8 Sep 2021 04:11:54 GMT)
    • ルールベースでAnswerを生成、その後BART-baseな手法でQuestionを生成する手順でQAを作ろうという研究。(子供の)教育を目的としている点が興味深い。
    • データセットは公開されていないよう(?)

SeqCo (Sequence Level Contrastive Learning): 対称学習を用いた要約の改善

  • Sequence Level Contrastive Learning for Text Summarization [49.0]
    教師付き抽象テキスト要約のためのContrastive学習モデルを提案する。 3つの異なる要約データセット上で、強いシーケンスからシーケンスへのテキスト生成モデル(すなわちBART)を改善する。 また, 人的評価は, 比較対象を含まないモデルに比べて, 忠実度評価が優れていることを示す。
    論文  参考訳(メタデータ)   (Wed, 8 Sep 2021 08:00:36 GMT)
    • 画像で流行したContrastive Learningをテキスト要約に適用、BARTの性能を改善したとのこと。CNN/DailyMail でSOTAを改善しているよう。人間の評価でもBARTを上回る性能。CNN/DailyMailのR-1で45台はすごい。

NumGPT: 数値の特性を明示的に扱う事前学習モデル

  • NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.9]
    テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。 具体的には、プロトタイプベースの数字埋め込みを利用して、数字の仮数をエンコードし、個別の埋め込み方法によって数字の指数をエンコードする。 数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
    論文  参考訳(メタデータ)   (Tue, 7 Sep 2021 15:06:12 GMT)
    • テキストの中の数値を通常の文字とは異なる扱いとする事前学習モデルの提案。数値関連のデータについて性能が向上したとのこと。
    • 機械翻訳でも数値の取り扱いに苦労することが多い。機械的に対訳ペアを生成したデータセットの多くが数値関連の問題を抱えていることからも、数値を別扱いするというのは良い方法のように思える。