HairCLIP: テキストによる髪の編集

  • HairCLIP: Design Your Hair by Text and Reference Image [100.9]
    本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。 画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。 念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
    論文  参考訳(メタデータ)   (Thu, 9 Dec 2021 18:59:58 GMT)

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

  • A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
    大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Dec 2021 13:21:26 GMT)

教師無しドメイン適合のためのWILDS Benchmark

  • Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
    機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。 一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
    論文  参考訳(メタデータ)   (Thu, 9 Dec 2021 18:32:38 GMT)
    • WILDSベンチマークの拡張版の提案。未ラベルデータを含むことでドメイン適合を行った場合のベンチマークが可能に。
    • プロジェクトサイトはWILDS (stanford.edu)

NL-Augmenter: 自然言語処理におけるデータ拡張フレームワーク

  • NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation [92.0]
    提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。 このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。 我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
    論文  参考訳(メタデータ)   (Mon, 6 Dec 2021 00:37:59 GMT)

Tell me why!: AI(強化学習エージェント)も説明から恩恵を受ける

  • Tell me why! — Explanations support learning of relational and causal structure [24.4]
    説明は人間の学習において重要な役割を担い、特にAIにとって大きな課題が残る分野においてである。 我々は、強化学習エージェントが説明の恩恵を受ける可能性があることを示す。 我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道筋を提供することを示唆している。
    論文  参考訳(メタデータ)   (Wed, 8 Dec 2021 12:48:22 GMT)
    • 「説明」が強化学習のエージェントに恩恵を与えるかを検証した論文。エージェントは「説明」を予測することでその情報を取り入れるとの設定。「説明」はエージェントが簡単な特徴を好むバイアスの回避、あいまいな経験から分布外への一般化、因果構造を特定に効果があるとしている。

GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル

  • Grounded Language-Image Pre-training [107.7]
    本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。 実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。 学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
    論文  参考訳(メタデータ)   (Tue, 7 Dec 2021 17:47:50 GMT)
    • オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。

KEAR(Knowledge External Attention for Reasoning ): 回答に常識が必要なCommonsenseQAで人間に匹敵

  • Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention [66.9]
    本稿では,外部の知識や状況に配慮した外部アテンション機構を備えたトランスフォーマーアーキテクチャの強化を提案する。 提案した外部注意機構は,既存のAIシステムの性能を大幅に向上させることができる。 提案システムは、オープンなCommonsenseQA研究ベンチマークにおいて、89.4%の精度で人間の88.9%に匹敵する。
    論文  参考訳(メタデータ)   (Mon, 6 Dec 2021 18:59:02 GMT)
    • Knowledge Graph、Dictionary、Training Dataを外部知識として活用可能な構造を提案、CommonsenseQAで89.4%と人の精度に匹敵する性能を達成。
    • リーダーボードはLeaderboard | tau-nlp

FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル

  • FLAVA: A Foundational Language And Vision Alignment Model [63.2]
    最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。 このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Dec 2021 18:59:16 GMT)
    • 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。

T-NLRv5, SS-MoE, Gopher, GLaM: Microsoft, Google, DeepMindの巨大言語モデル

ここ最近は巨大言語モデルの話題が多かった。

  • 12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
    • DeepMindが280Bパラメータの巨大言語モデルGopherを発表
    • 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
    • 他のモデルと比較可能な124タスク中100タスクでSoTA
  • 12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
    • Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
    • 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia(高品質データ)で作成したフィルタを用いて高品質化。
    • 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
      • NLG: Natural Language Generation / テキスト生成
      • NLU: Natural Language Understanding  / テキスト理解
      • ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
    • 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。

この先にAGIがあっても不思議ではない感覚がある。

Text2Mesh: テキストからの3Dメッシュの生成

  • Text2Mesh: Text-Driven Neural Stylization for Meshes [18.4]
    筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。 ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。 スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 6 Dec 2021 18:23:29 GMT)