転送可能性に関するサーベイ

  • Transferability in Deep Learning: A Survey [80.7]
    知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。 本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。 我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
    論文  参考訳(メタデータ)   (Sat, 15 Jan 2022 15:03:17 GMT)

Natural Language-Centric Outside-Knowledge Visual Question Answeringに対するTransform-Retrieve-Generate framework (TRiG)

  • A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
    画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。 実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 14 Jan 2022 04:12:46 GMT)
    • Outside-Knowledge Visual Question Answeringは回答には不十分な(外部知識活用を必要とする)画像+質問に回答するタスク。「消火栓の写真+これを使う車の名前は?」に対して「消防車」と答えるような内容。
    • Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。

TaxoCom: トピック分類

  • TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel Topic Clusters [57.6]
    我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。 TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。 (i)局所的判別的埋め込みは、既知の(すなわち与えられた)サブトピック間で識別可能なテキスト埋め込み空間を最適化し、 (ii)新規適応クラスタリングは、既知のサブトピックまたは新しいサブトピックのいずれかに用語を割り当てる。 2つの実世界のデータセットに関する総合的な実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から高品質なトピック分類を生成するだけでなく、下流タスクにおける他のすべてのベースラインよりも優れています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 19 Jan 2022 20:02:10 GMT)
    • ユーザから与えられたトピック情報を不完全と仮定し、新規のトピックを見つける事が可能なTopic Taxonomy手法の提案。人間の評価により優れた出力であることを確認したとのこと。

Data2vec: speech、vision、textで動作する自己教師有り学習

2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。

論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub

Table-and-Text Open Domain QAに対するCARP(ChAincentric Reasoning and Pre-training Framework)

  • Reasoning over Hybrid Chain for Table-and-Text Open Domain QA [69.8]
    我々はChAin中心の推論と事前学習フレームワーク(CARP)を提案する。 CARPはハイブリッドチェーンを使用して、質問応答のための表とテキスト間の明示的な中間推論プロセスをモデル化する。 また,クロスモダリティ推論プロセスの同定において,事前学習モデルを強化するために,新しいチェーン中心の事前学習手法を提案する。
    論文  参考訳(メタデータ)   (Sat, 15 Jan 2022 16:11:55 GMT)

Omnivore: 多くのモダリティで効果的なモデル

  • Omnivore: A Single Model for Many Visual Modalities [47.9]
    以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。 同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Jan 2022 18:58:03 GMT)
    • 画像関連のデータ(普通の画像、動画、シングルビューの3D)について共通的に動作可能な(複数のモダリティに対応可能な)モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。

LaMDA: Language Models for Dialog Applications

  • LaMDA: Language Models for Dialog Applications [75.8]
    LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。 注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
    論文  参考訳(メタデータ)   (Thu, 20 Jan 2022 15:44:37 GMT)
    • 137Bパラメータ、1.56T wordsで事前学習された対話用事前学習モデル。計算時間は1024 TPU-v3 で57.7日間とのことで計算も非常に規模が大きい。バイアスの除去など安全性にも気を使っているとのこと。
    • 外部知識ソースにアクセス可能な事や論文で出ている事例も興味深い。対話インタフェースもE2Eでできるようになっていくのだろうか。

WANLI: データセット作成のためのクラウドワーカとAIのコラボレーション

  • WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation [101.0]
    我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。 我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。 結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
    論文  参考訳(メタデータ)   (Sun, 16 Jan 2022 03:13:49 GMT)
    • クラウドワーカーとAIとのコラボレーションによる高品質データの構築。自由形式で例を書くことをクラウドワーカに求めるよりも、GPT-3などで作成されたコンテンツの修正を求める方がより効果的であることを示唆しているとのこと。
      • 賛否両論あるポストエディットの話に似ているように感じた。

Language Models as Zero-Shot Planner: LMはタスクをステップに落とせるか?

  • Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.3]
    自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。 事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。 本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
    論文  参考訳(メタデータ)   (Tue, 18 Jan 2022 18:59:45 GMT)
  • 大規模言語モデルを用いて「歯を磨く」というタスクを「①浴室に行く」「②ドアを開ける」・・・のようにステップに落とせるか?に対する論文。一定の補正を加えることで79%で実行可能となるとのこと。VirtualHome (virtual-home.org)による可視化が面白い。
  • プロジェクトサイトはLanguage Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents (wenlong.page)

Hyper-Tune: 高速なハイパーパラメータチューニングフレームワーク