少量データでの学習のサーベイ

  • A Survey of Learning on Small Data [57.8]
    小データの学習は人工知能(AI)の究極の目的の1つである この調査はPACフレームワーク下でのアクティブサンプリングに追随し、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。 コンピュータビジョンや自然言語処理といった、小さなデータでの学習の恩恵を受ける難しい応用も調査されている。
    論文  参考訳(メタデータ)   (Fri, 29 Jul 2022 02:34:19 GMT)
    • 小規模データでの学習に関するサーベイ。 理論、アプローチ、アプリケーションなど様々な軸で状況を概説している。

AlexaTM 20B

  • AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model [25.9]
    マルチリンガルな大規模シーケンス・ツー・シーケンス(seq2seq)モデルは、様々なタスクにおけるデコーダのみのモデルよりも、より効率的であることを示す。 我々は、Alexa Teacher Model (AlexaTM 20B)と呼ばれる200億のパラメータのSeq2seqモデルをトレーニングし、1ショットの要約タスクで最先端(SOTA)のパフォーマンスを達成することを示す。
    論文  参考訳(メタデータ)   (Tue, 2 Aug 2022 13:30:07 GMT)

eco2AI: 二酸化炭素排出量のトラッキングライブラリ

転送学習におけるソースデータセットの役割

  • A Data-Based Perspective on Transfer Learning [76.3]
    転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。 我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 17:58:28 GMT)
    • 事前学習用データから不要なものを取り除くことで最終性能が上がること、および、そのフレームワークの提案
      • 頑健性の変化についても知りたいところ。。
    • リポジトリはGitHub – MadryLab/data-transfer

OmniCity: Omnipotent City マルチレベル・マルチビューデータセット

  • OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
    オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。 データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 15:19:25 GMT)
    • 都市理解のためのデータセット。衛星画像だけでなくアノテーション付きのストリートパノラマ画像を含む。
    • プロジェクトサイトはOmniCity (city-super.github.io)

Neural Knowledge Bank (NKB) :事前学習モデルにおける知識蓄積機構

  • Neural Knowledge Bank for Pretrained Transformers [20.4]
    本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。 知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
    論文  参考訳(メタデータ)   (Sun, 31 Jul 2022 09:14:34 GMT)
    • Neural Knowledge Bank (NKB) という知識格納領域をTransformer内に作っておき、事後に知識を投入できるという論文。AIモデルを一定程度事後に編集できるということで非常に画期的だと思う。

MAFW: Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild

  • MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild [54.6]
    大規模複合感情データベースMAFWを提案する。 各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。 複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 13:34:33 GMT)

ソース画像+テキスト指示による新たな画像の生成

  • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [60.1]
    テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。 ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。 一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
    論文  参考訳(メタデータ)   (Tue, 2 Aug 2022 17:50:36 GMT)

SLED(SLidingEncoder and Decoder): 短文用モデルを長文に適用する手法

  • Efficient Long-Text Understanding with Short-Text Models [38.8]
    SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。 入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 11:14:39 GMT)

CelebV-HQ

  • CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
    CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。 年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。 その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
    論文  参考訳(メタデータ)   (Mon, 25 Jul 2022 17:57:07 GMT)