arXiv最新論文の紹介

少量データでの学習のサーベイ

A Survey of Learning on Small Data [57.8]
小データの学習は人工知能(AI)の究極の目的の1つであるこの調査はPACフレームワーク下でのアクティブサンプリングに追随し、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。コンピュータビジョンや自然言語処理といった、小さなデータでの学習の恩恵を受ける難しい応用も調査されている。
論文参考訳（メタデータ） (Fri, 29 Jul 2022 02:34:19 GMT)
- 小規模データでの学習に関するサーベイ。理論、アプローチ、アプリケーションなど様々な軸で状況を概説している。

AlexaTM 20B

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model [25.9]
マルチリンガルな大規模シーケンス・ツー・シーケンス(seq2seq)モデルは、様々なタスクにおけるデコーダのみのモデルよりも、より効率的であることを示す。我々は、Alexa Teacher Model (AlexaTM 20B)と呼ばれる200億のパラメータのSeq2seqモデルをトレーニングし、1ショットの要約タスクで最先端(SOTA)のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (Tue, 2 Aug 2022 13:30:07 GMT)
- 大規模なマルチリンガルseq2seqモデルの提案、要約タスクでSoTAとのこと。
- リポジトリはGitHub – amazon-research/alexa-teacher-models

eco2AI: 二酸化炭素排出量のトラッキングライブラリ

eco2AI: carbon emissions tracking of machine learning models as the first step towards sustainable AI [47.1]
eco2AIでは、エネルギー消費の追跡と地域CO2排出量の正当性に重点を置いている。モチベーションは、サステナブルAIとグリーンAI経路の両方で、AIベースの温室効果ガスの隔離サイクルの概念からもたらされる。
論文参考訳（メタデータ） (Sun, 31 Jul 2022 09:34:53 GMT)
- 学習中などのエネルギー消費や二酸化炭素排出量をトラッキングできるというライブラリの提案。
- リポジトリはGitHub – sb-ai-lab/Eco2AI: Eco2AI is a python library which accumulates statistics about power consumption and CO2 emission during running code.

転送学習におけるソースデータセットの役割

A Data-Based Perspective on Transfer Learning [76.3]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文参考訳（メタデータ） (Tue, 12 Jul 2022 17:58:28 GMT)
- 事前学習用データから不要なものを取り除くことで最終性能が上がること、および、そのフレームワークの提案
  - 頑健性の変化についても知りたいところ。。
- リポジトリはGitHub – MadryLab/data-transfer

OmniCity: Omnipotent City マルチレベル・マルチビューデータセット

OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 15:19:25 GMT)
- 都市理解のためのデータセット。衛星画像だけでなくアノテーション付きのストリートパノラマ画像を含む。
- プロジェクトサイトはOmniCity (city-super.github.io)

Neural Knowledge Bank (NKB) ：事前学習モデルにおける知識蓄積機構

Neural Knowledge Bank for Pretrained Transformers [20.4]
本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
論文参考訳（メタデータ） (Sun, 31 Jul 2022 09:14:34 GMT)
- Neural Knowledge Bank (NKB) という知識格納領域をTransformer内に作っておき、事後に知識を投入できるという論文。AIモデルを一定程度事後に編集できるということで非常に画期的だと思う。

MAFW: Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild

MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild [54.6]
大規模複合感情データベースMAFWを提案する。各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 13:34:33 GMT)
- 10,045本のビデオオーディオクリップを収録した大規模マルチモーダル複合感情データベースの提案。非営利な研究目的にのみ使用可能とのことだが、大規模で有用なデータセットだと思う。
- プロジェクトサイトはMAFW | A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild. (mafw-database.github.io)

ソース画像＋テキスト指示による新たな画像の生成

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [60.1]
テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
論文参考訳（メタデータ） (Tue, 2 Aug 2022 17:50:36 GMT)
- 数枚の画像をソースとしてテキスト指示により新たな画像を生み出す研究。ソース画像を表す疑似単語を探し、それを用いてテキスト入力による画像生成を行うアプローチ。生成する画像を狙いやすくなる有用そうな研究。
- プロジェクトサイトはAn Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (textual-inversion.github.io)

SLED(SLidingEncoder and Decoder): 短文用モデルを長文に適用する手法

Efficient Long-Text Understanding with Short-Text Models [38.8]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 11:14:39 GMT)
- 短いテキストを処理するモデルをうまく利用して長文を処理するフレームワークの提案。
  - 非常に強力な手法そうであるがこの方針でdecodeがうまくいく理由が腑に落ちない・・・
- リポジトリはGitHub – Mivg/SLED: The official repository for Efficient Long-Text Understanding Using Short-Text Models (Ivgi et al., 2022) paper

CelebV-HQ

CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
論文参考訳（メタデータ） (Mon, 25 Jul 2022 17:57:07 GMT)
- 大規模なビデオデータセット、20秒以下の動画、35666個で構成されマニュアルでラベル付けされているのが凄い。
- プロジェクトサイトはCelebV-HQ: A Large-scale Video Facial Attributes Dataset

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30