FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル

  • FLAVA: A Foundational Language And Vision Alignment Model [63.2]
    最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。 このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Dec 2021 18:59:16 GMT)
    • 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。

T-NLRv5, SS-MoE, Gopher, GLaM: Microsoft, Google, DeepMindの巨大言語モデル

ここ最近は巨大言語モデルの話題が多かった。

  • 12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
    • DeepMindが280Bパラメータの巨大言語モデルGopherを発表
    • 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
    • 他のモデルと比較可能な124タスク中100タスクでSoTA
  • 12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
    • Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
    • 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia(高品質データ)で作成したフィルタを用いて高品質化。
    • 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
      • NLG: Natural Language Generation / テキスト生成
      • NLU: Natural Language Understanding  / テキスト理解
      • ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
    • 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。

この先にAGIがあっても不思議ではない感覚がある。

Text2Mesh: テキストからの3Dメッシュの生成

  • Text2Mesh: Text-Driven Neural Stylization for Meshes [18.4]
    筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。 ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。 スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 6 Dec 2021 18:23:29 GMT)

Player of Games: 不完全情報ゲームに対するAI by deepmind

  • Player of Games [20.9]
    Player of Gamesは、大規模な完全かつ不完全な情報ゲームにおいて、強力な経験的パフォーマンスを達成した最初のアルゴリズムである。 プレイヤ・オブ・ゲームは,有効時間と計算能力が増大するにつれて,完全プレイに収束する。
    論文  参考訳(メタデータ)   (Mon, 6 Dec 2021 17:16:24 GMT)
    • 完全情報ゲームは既にAIが極めて強い領域になっているが、不完全情報ゲームでも有効なアルゴリズムが構築できたとの報告。

Table2Vec: 顧客データに対する表現学習

  • Table2Vec: Automated Universal Representation Learning to Encode All-round Data DNA for Benchmarkable and Explainable Enterprise Data Science [34.2]
    本稿では,顧客などのエンティティの自動普遍的表現学習のためのニューラルエンコーダTable2Vecを紹介する。 学習された普遍的な表現は、代表的でベンチマーク可能なエンタープライズデータゲノムとして機能する。 Table2Vecは、エンタープライズ分析で一般的に使用される、浅く、強化され、深層学習の手法を大幅に上回っている。
    論文  参考訳(メタデータ)   (Fri, 3 Dec 2021 10:39:25 GMT)
    • テーブルデータに対する2vec、様々な形態のデータを分散表現にできるとのことで、直感的に様々なところで使えそうな一方でleak対策がどうなっているかが気にかかる。

効率的な顔認識のサーベイ

  • Detect Faces Efficiently: A Survey and Evaluations [13.1]
    顔認識、表情認識、顔追跡、頭部推定を含む多くの応用は、画像中の顔の位置と大きさの両方が知られていると仮定する。 ディープラーニング技術は、かなりの計算量の増加と共に、対面検出に驚くべきブレークスルーをもたらした。 本稿では, 代表的な深層学習手法を紹介し, 精度と効率性の観点から, 深く, 徹底的な分析を行う。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Dec 2021 08:39:40 GMT)
    • Deep Learningの応用先としても有力な顔認識に関するサーベイ。主要なモデルを振り返るうえで非常に参考になる。

Transformer + scratchpad: 事前学習モデル+スクラッチパッドを用いた処理

  • Show Your Work: Scratchpads for Intermediate Computation with Language Models [41.6]
    大規模な事前訓練された言語モデルは、”1回のパスで”実行できるタスクで驚くほどうまく機能します。 これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。 特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 21:32:46 GMT)
    • 中間ステップをスクラッチパッド(バッファ)に出力しながら処理することで、これまで苦手とされていた計算やプログラム実行のタスクで優れた性能を発揮できたとのこと。
      • 人がやる事っぽく面白い結果。

Dream Fields: テキスト表現からの3Dオブジェクト生成

  • Zero-Shot Text-Guided Object Generation with Dream Fields [111.1]
    ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。 提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。 実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Dec 2021 17:53:55 GMT)
    • テキストから3次元オブジェクト生成するモデルの提案。論文の通りNeRF(Neural Radiance Fields) とCLIPをつかってできそうな気はするものの、プロジェクトサイトにある結果を見ると非常に面白い。
    • プロジェクトサイトはZero-Shot Text-Guided Object Generation with Dream Fields (ajayj.com)

CLIPstyler: テキストを用いた画像スタイル変換

  • CLIPstyler: Image Style Transfer with a Single Text Condition [34.2]
    既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。 そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 1 Dec 2021 09:48:53 GMT)
    • テキストの指示を用いて画像のスタイルを変換する研究。「画像」+「Fireというテキスト」を与えると炎で包まれているような画像が生成される。サンプルが面白い。

SEAL(Self-supervised Embodied Active Learning) : 3D空間で行動・知覚・学習

  • SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency [122.2]
    本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。 インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。 我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Dec 2021 06:26:38 GMT)