arXiv – ページ 173 – arXiv最新論文の紹介

SituatedQA:回答のために言語外の文脈が必要なQAデータセット

SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.5]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文参考訳（メタデータ）参考訳（全文） (Mon, 13 Sep 2021 17:53:21 GMT)
- 回答のために言語外の文脈が必要なQAデータセットの提案。時間的or地理的を表すContext Typeとそれに対応したContext Valueによって答えが変化する。直感的にも予想できる通り、Leaderboardからは人間とモデルの差が大きい解くのが難しい問題のように見える。
- プロジェクトサイトはhttps://situatedqa.github.io/

PICa(Prompts GPT3 via the use of Image Captions): 画像キャプショニング+GPT-3によるVisual Question Answering

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
論文参考訳（メタデータ） (Fri, 10 Sep 2021 17:51:06 GMT)
- 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
  - GPT-３は何をどこまで知っているのだろう・・・？という感想

HyperCLOVA: 韓国の大規模事前学習モデル

What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.6]
GPT-3は、数千億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版、HyperCLOVAを紹介する。我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
論文参考訳（メタデータ） (Fri, 10 Sep 2021 03:32:19 GMT)
- NAVERが構築した大規模事前学習モデルHyperCLOVAの論文。few-shotやPrompt tuningによる高い性能を確認。社内でHyperCLOVA StudioというNo Code AI paradigmを利用しているとのこと。

M5Product: 600万以上のマルチモーダルデータセット

M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.8]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Sep 2021 13:50:22 GMT)
- e-コマースの画像、テキスト、テーブル、ビデオ、オーディオを含む6M件と大規模なマルチモーダルデータセット。このデータをもとにした検索・分類・クラスタリングなどのタスクで優れた性能を出すM5-MMTをベースラインとして提案。
- プロジェクトサイトはhttps://xiaodongsuper.github.io/M5Product_dataset/

最近公開化された画像-テキスト 4億ペアからなるLAION-400M などマルチモーダルな大規模データセットが公開されるのは非常にありがたい。

MATE(Multi-view Attention for Table transformer Efficiency): 大きなテーブルを含む文書をモデル化

MATE: Multi-view Attention for Table Transformer Efficiency [21.5]
ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。現在のTransformerモデルは一般的に512トークンに制限されている。本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
論文参考訳（メタデータ） (Thu, 9 Sep 2021 14:39:30 GMT)
- WEBページなどによくあるテーブル構造をモデル化可能な（シーケンス長が長く効率的な）transformerモデルを提案、HybridQAなどでsotaとのこと。
- 一般的に表形式データが混在したWEBページの扱いは難しいのでこの研究には興味津々。

Talk-to-Edit: 対話による顔編集

Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.9]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。我々の重要な洞察は、GANラテント空間における連続的な「セマンティックフィールド」をモデル化することである。本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文参考訳（メタデータ） (Thu, 9 Sep 2021 17:17:59 GMT)
- 自然なやりとりによって（例えば「もう少し笑って」と入力）顔画像を編集するフレームワークを提案、より連続的に変化させられるモデルを構築できたとのこと。システム実現のため自然言語と画像の組み合わせであるCelebA-Dialogというデータセットを作成、公開している。
- プロジェクトサイトはhttps://www.mmlab-ntu.com/project/talkedit/、画像を見るとどのようなものかよく分かる。リポジトリはhttps://github.com/yumingj/Talk-to-Edit、Colabでモデルを試すことも可能でとても面白い。

HintedBT: Back Translationの効率化

HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints [7.5]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Sep 2021 17:43:20 GMT)
- 高品質BTデータと低品質BTデータについてタグを付与することによりBack Translationの有効性を上げられるとの報告。LaBSEによるHintが有効とのことでマルチリンガルな分散表現の活用は有効のよう。（FuguMTでも使わせてもらっている）

EPRNN(Evolutionary Plastic Recurrent Neural Networks): 進化的可塑的回帰型ニューラルネットワーク

Do What Nature Did To Us: Evolving Plastic Recurrent Neural Networks For Task Generalization [38.8]
進化的プラスチックリカレントニューラルネットワーク(EPRNN)というフレームワークを提案する。 EPRNNは、進化戦略、塑性規則、再帰に基づく学習を1つのメタ学習フレームワークで構成し、異なるタスクに一般化する。 EPRNNの内ループでは,再帰学習機構を用いて塑性を鍛造することにより,長期記憶と短期記憶の両方を効果的に実現している。
論文参考訳（メタデータ）参考訳（全文） (Wed, 8 Sep 2021 11:34:14 GMT)
- 生物学的なニューラルネットワークに存在する塑性規則をRNNに自然な形で入れ込むという研究。（最後の結果からのみ学習するのではなく）観測列をもとに学習したいというモチベーションでRNNを選んだとのこと。RNNにおける長期記憶の欠如をPRNNが改善することを確認。
  - 観測中にWとhを順次変更するセッティングを追加したRNNをPRNNと呼んでいるっぽい。確かにこっちの方が自然に思える。一方でRNN以後登場した複雑なモデル構築の戦略として有効かは研究の発展を待ちたいところ。EPRNNはPRNNに進化戦略的アプローチを取り入れ、異なるWorker間のパラメータを共有しながら更新していく（最適なパラメータを求めに行く）もののよう。

FairytaleQA : 子どものストーリーブックに対するQA

It is AI’s Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset [30.6]
教育応用においては、教師や親は、言語学習結果を最大化できる子どもにどんな質問をすべきか分からないことがある。新たにリリースされた書籍QAデータセット(FairytaleQA)を用いて,本アプリケーションのための自動QA生成モデルアーキテクチャを開発した。
論文参考訳（メタデータ） (Wed, 8 Sep 2021 04:11:54 GMT)
- ルールベースでAnswerを生成、その後BART-baseな手法でQuestionを生成する手順でQAを作ろうという研究。（子供の）教育を目的としている点が興味深い。
- データセットは公開されていないよう（？）

SeqCo (Sequence Level Contrastive Learning): 対称学習を用いた要約の改善

Sequence Level Contrastive Learning for Text Summarization [49.0]
教師付き抽象テキスト要約のためのContrastive学習モデルを提案する。 3つの異なる要約データセット上で、強いシーケンスからシーケンスへのテキスト生成モデル(すなわちBART)を改善する。また, 人的評価は, 比較対象を含まないモデルに比べて, 忠実度評価が優れていることを示す。
論文参考訳（メタデータ） (Wed, 8 Sep 2021 08:00:36 GMT)
- 画像で流行したContrastive Learningをテキスト要約に適用、BARTの性能を改善したとのこと。CNN/DailyMail でSOTAを改善しているよう。人間の評価でもBARTを上回る性能。CNN/DailyMailのR-1で45台はすごい。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31