Socratic Model: モデル間の対話を通したマルチモーダル

  • Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
    大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。 このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
    論文  参考訳(メタデータ)   (Fri, 1 Apr 2022 17:43:13 GMT)
    • 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
    • リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

  • 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
    • オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
    • テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
    • 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
  • 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
  • サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

Automatic Song Translation: 歌詞の自動翻訳

  • Automatic Song Translation for Tonal Languages [23.1]
    歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 02:25:33 GMT)
    • 歌詞の翻訳は元の意味を保持することに加えて、既存の音楽の韻律に一致する必要があり難しい。音素だけでなく発音によって意味が異なる言語の場合は問題が大きい。著者らはこのタスクを定義、データセットを作成、モデル構築(翻訳モデル構築では外部データを活用)を行っている。下記サイトのデモが面白い(が中国語が分からないので、翻訳の有効性が確認できず残念)。
    • リポジトリはAutomatic Song Translation for Tonal Languages (with Demo) (gagast.github.io)

PaLM: Pathways Language Model

  • PaLM: Scaling Language Modeling with Pathways [180.7]
    我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。 我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。 数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 16:11:45 GMT)
    • 540-billion parameterで780 billion tokens のデータ& 6144個のTPU v4 を用いて構築された大規模モデル。BIG-benchで平均的な人間のパフォーマンスを上回る。
    • Discontinuous improvementsとして報告された内容が興味深く、8B→62Bパラメータへの改善と62B→540Bへの改善においてよく報告される“power law”に沿った改善ではない、非連続的な改善が見られたとのこと。
    • 「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。

FairytaleQA : 物語理解のためのQAデータセット

  • Fantastic Questions and Where to Find Them: FairytaleQA — An Authentic Dataset for Narrative Comprehension [136.8]
    幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。 FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
    論文  参考訳(メタデータ)   (Sat, 26 Mar 2022 00:20:05 GMT)
    • 物語ドメインのQAデータセット。規模はそれなりという感じだが、セクション限定を行わない場合、長めのテキストを扱う必要がありそう。

ブラックボックスモデルの頑健性向上

  • How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
    入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。 我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
    論文  参考訳(メタデータ)   (Sun, 27 Mar 2022 03:23:32 GMT)

Deep Active Learningのサーベイ

  • A Comparative Survey of Deep Active Learning [76.0]
    Active Learning (AL)は、ラベル付けのための大きなラベル付けされていないデータプールからデータサンプルを順次選択することで、ラベル付けコストを削減するための一連のテクニックである。 ディープラーニング(DL)はデータハングリーであり、DLモデルのパフォーマンスは、より多くのトレーニングデータとともに単調にスケールする。 近年、Deep Active Learning (DAL) は、高価なラベリングコストを最小化しつつ、モデル性能を最大化するための実現可能なソリューションとして上昇している。
    論文  参考訳(メタデータ)   (Fri, 25 Mar 2022 05:17:24 GMT)
    • Active Learningの現状を知るために良い資料。VQAでは上手くいっていないのは意外だった。特定タスク、特定ドメインでは有効そうという感じで社会実装上は重要な技術のようには思う。
    • 利用ソフトウェアにGitHub – ej0cl6/deep-active-learning: Deep Active Learningが挙がっており、拡張バージョンも公開予定とのこと。

Test-time Adaptation for Automatic Speech Recognition

  • Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.8]
    Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。 単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
    論文  参考訳(メタデータ)   (Sun, 27 Mar 2022 06:38:39 GMT)

マルチモーダル& Graph Attentionによる文書理解

  • Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
    GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。 テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 09:27:50 GMT)
    • ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル(韓国語/英語)

  • Large-scale Bilingual Language-Image Contrastive Learning [17.2]
    我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。 我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。 実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:02:03 GMT)