GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA

  • Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
    視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。 その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 17:52:55 GMT)
    • 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
      • 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。

xGQA: 7言語の Visual Question Answering

  • xGQA: Cross-Lingual Visual Question Answering [100.4]
    xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。 確立された英語GQAデータセットを7言語に拡張する。 本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
    論文  参考訳(メタデータ)   (Mon, 13 Sep 2021 15:58:21 GMT)
    •  7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
    • リポジトリはhttps://github.com/Adapter-Hub/xGQA

SituatedQA:回答のために言語外の文脈が必要なQAデータセット

  • SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.5]
    SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。 質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。 我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 13 Sep 2021 17:53:21 GMT)
    • 回答のために言語外の文脈が必要なQAデータセットの提案。時間的or地理的を表すContext Typeとそれに対応したContext Valueによって答えが変化する。直感的にも予想できる通り、Leaderboardからは人間とモデルの差が大きい解くのが難しい問題のように見える。
    • プロジェクトサイトはhttps://situatedqa.github.io/

PICa(Prompts GPT3 via the use of Image Captions): 画像キャプショニング+GPT-3によるVisual Question Answering

  • An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
    本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。 まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 17:51:06 GMT)
    • 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
      • GPT-3は何をどこまで知っているのだろう・・・?という感想

HyperCLOVA: 韓国の大規模事前学習モデル

  • What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.6]
    GPT-3は、数千億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。 韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版、HyperCLOVAを紹介する。 我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 03:32:19 GMT)
    • NAVERが構築した大規模事前学習モデルHyperCLOVAの論文。few-shotやPrompt tuningによる高い性能を確認。社内でHyperCLOVA StudioというNo Code AI paradigmを利用しているとのこと。

M5Product: 600万以上のマルチモーダルデータセット

  • M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.8]
    我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Sep 2021 13:50:22 GMT)
    • e-コマースの画像、テキスト、テーブル、ビデオ、オーディオを含む6M件と大規模なマルチモーダルデータセット。このデータをもとにした検索・分類・クラスタリングなどのタスクで優れた性能を出すM5-MMTをベースラインとして提案。
    • プロジェクトサイトはhttps://xiaodongsuper.github.io/M5Product_dataset/

最近公開化された画像-テキスト 4億ペアからなるLAION-400M などマルチモーダルな大規模データセットが公開されるのは非常にありがたい。

MATE(Multi-view Attention for Table transformer Efficiency): 大きなテーブルを含む文書をモデル化

  • MATE: Multi-view Attention for Table Transformer Efficiency [21.5]
    ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。 現在のTransformerモデルは一般的に512トークンに制限されている。 本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Sep 2021 14:39:30 GMT)
    • WEBページなどによくあるテーブル構造をモデル化可能な(シーケンス長が長く効率的な)transformerモデルを提案、HybridQAなどでsotaとのこと。
    • 一般的に表形式データが混在したWEBページの扱いは難しいのでこの研究には興味津々。

Talk-to-Edit: 対話による顔編集

  • Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.9]
    Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。 我々の重要な洞察は、GANラテント空間における連続的な「セマンティックフィールド」をモデル化することである。 本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
    論文  参考訳(メタデータ)   (Thu, 9 Sep 2021 17:17:59 GMT)
    • 自然なやりとりによって(例えば「もう少し笑って」と入力)顔画像を編集するフレームワークを提案、より連続的に変化させられるモデルを構築できたとのこと。システム実現のため自然言語と画像の組み合わせであるCelebA-Dialogというデータセットを作成、公開している。
    • プロジェクトサイトはhttps://www.mmlab-ntu.com/project/talkedit/、画像を見るとどのようなものかよく分かる。リポジトリはhttps://github.com/yumingj/Talk-to-Edit、Colabでモデルを試すことも可能でとても面白い。

HintedBT: Back Translationの効率化

  • HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints [7.5]
    標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である 私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。 これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Sep 2021 17:43:20 GMT)
    • 高品質BTデータと低品質BTデータについてタグを付与することによりBack Translationの有効性を上げられるとの報告。LaBSEによるHintが有効とのことでマルチリンガルな分散表現の活用は有効のよう。(FuguMTでも使わせてもらっている)

EPRNN(Evolutionary Plastic Recurrent Neural Networks): 進化的可塑的回帰型ニューラルネットワーク

  • Do What Nature Did To Us: Evolving Plastic Recurrent Neural Networks For Task Generalization [38.8]
    進化的プラスチックリカレントニューラルネットワーク(EPRNN)というフレームワークを提案する。 EPRNNは、進化戦略、塑性規則、再帰に基づく学習を1つのメタ学習フレームワークで構成し、異なるタスクに一般化する。 EPRNNの内ループでは,再帰学習機構を用いて塑性を鍛造することにより,長期記憶と短期記憶の両方を効果的に実現している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Sep 2021 11:34:14 GMT)
    • 生物学的なニューラルネットワークに存在する塑性規則をRNNに自然な形で入れ込むという研究。(最後の結果からのみ学習するのではなく)観測列をもとに学習したいというモチベーションでRNNを選んだとのこと。RNNにおける長期記憶の欠如をPRNNが改善することを確認。
      • 観測中にWとhを順次変更するセッティングを追加したRNNをPRNNと呼んでいるっぽい。確かにこっちの方が自然に思える。一方でRNN以後登場した複雑なモデル構築の戦略として有効かは研究の発展を待ちたいところ。EPRNNはPRNNに進化戦略的アプローチを取り入れ、異なるWorker間のパラメータを共有しながら更新していく(最適なパラメータを求めに行く)もののよう。