arXiv最新論文の紹介

Video Transformerのサーベイ

Video Transformers: A Survey [42.3]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文参考訳（メタデータ） (Sun, 16 Jan 2022 07:31:55 GMT)
- 動画処理にもTransformerが使われていることがよくわかるサーベイ

ExtraPhrase: 抽象型要約のためのデータ拡張（extractive + paraphrasing）

ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization [27.9]
ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 ROUGEスコアにおいて,ExtraPhraseは抽象的な要約タスクの性能を0.50ポイント以上向上することを示す。また,実際のトレーニングデータの量が著しく少ない場合,ExtraPhraseは極めて有効であることを示す。
論文参考訳（メタデータ） (Fri, 14 Jan 2022 06:14:34 GMT)
- 抽出型要約と言い換えを用いて抽象型要約のための合成データを作るというアプローチ。データ数が少ない場合に特に有効とのこと。
- 抽象型要約のデータは高価なので有効そうな場面はありそう。

Youling: AIが支援する歌詞作成

Youling: an AI-Assisted Lyrics Creation System [72.0]
本稿では,AIによる歌詞作成システムである Youling について紹介する。歌詞生成プロセスでは、Youlingは従来の1パスのフルテキスト生成モードとインタラクティブな生成モードをサポートする。システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。
論文参考訳（メタデータ） (Tue, 18 Jan 2022 03:57:04 GMT)
- GPT-2をベースとした歌詞作成支援システムの提案。30GBの中国語書籍コーパスで学習後、300Kの歌詞コーパスでfine tuningを実施したとのこと。
- デモシステム利用する案内が論文中に存在（ID等を含むのでここには記載しなかった）

DoT: Denoising Training によるニューラル機械翻訳の改善

Improving Neural Machine Translation by Denoising Training [96.0]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文参考訳（メタデータ）参考訳（全文） (Thu, 20 Jan 2022 03:55:52 GMT)
- シンプルなdenosingタスク（論文のappendixに入る程度のノイズ付加）を解き、初期値とすることでニューラル機械翻訳の性能が上がるという報告。
- BiT(Bidirectional Training): 機械翻訳用のシンプルな双方向事前学習 – arXiv最新論文の紹介 (devneko.jp)の著者によるもので、BiTは実際に効果があったので期待大。

転送可能性に関するサーベイ

Transferability in Deep Learning: A Survey [80.7]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文参考訳（メタデータ） (Sat, 15 Jan 2022 15:03:17 GMT)
- Pre-Training → Adaptation → Evaluationの流れを軸にTransferに焦点を当てたサーベイ。広範な内容が扱われており、非常に良い内容。てコード等がまとまっているのも素晴らしい。
- リポジトリはGitHub – thuml/Transfer-Learning-Library: Transfer Learning Library for Domain Adaptation, Task Adaptation, and Domain Generalization

Natural Language-Centric Outside-Knowledge Visual Question Answeringに対するTransform-Retrieve-Generate framework (TRiG)

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Fri, 14 Jan 2022 04:12:46 GMT)
- Outside-Knowledge Visual Question Answeringは回答には不十分な（外部知識活用を必要とする）画像＋質問に回答するタスク。「消火栓の写真＋これを使う車の名前は？」に対して「消防車」と答えるような内容。
- Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。

TaxoCom: トピック分類

TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel Topic Clusters [57.6]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。 TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。 (i)局所的判別的埋め込みは、既知の(すなわち与えられた)サブトピック間で識別可能なテキスト埋め込み空間を最適化し、 (ii)新規適応クラスタリングは、既知のサブトピックまたは新しいサブトピックのいずれかに用語を割り当てる。 2つの実世界のデータセットに関する総合的な実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から高品質なトピック分類を生成するだけでなく、下流タスクにおける他のすべてのベースラインよりも優れています。
論文参考訳（メタデータ）参考訳（全文） (Wed, 19 Jan 2022 20:02:10 GMT)
- ユーザから与えられたトピック情報を不完全と仮定し、新規のトピックを見つける事が可能なTopic Taxonomy手法の提案。人間の評価により優れた出力であることを確認したとのこと。

Data2vec: speech、vision、textで動作する自己教師有り学習

2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。

論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub

Table-and-Text Open Domain QAに対するCARP(ChAincentric Reasoning and Pre-training Framework)

Reasoning over Hybrid Chain for Table-and-Text Open Domain QA [69.8]
我々はChAin中心の推論と事前学習フレームワーク(CARP)を提案する。 CARPはハイブリッドチェーンを使用して、質問応答のための表とテキスト間の明示的な中間推論プロセスをモデル化する。また,クロスモダリティ推論プロセスの同定において,事前学習モデルを強化するために,新しいチェーン中心の事前学習手法を提案する。
論文参考訳（メタデータ） (Sat, 15 Jan 2022 16:11:55 GMT)
- 通常解くのが難しい表形式データを含む場合のQuestion Answeringに対する手法の提案。GitHub – wenhuchen/OTT-QA: Code and Data for ICLR2021 Paper “Open Question Answering over Tables and Text”に対してDEV-EM: 33.2はかなり高い性能のように感じる。

Omnivore: 多くのモダリティで効果的なモデル

Omnivore: A Single Model for Many Visual Modalities [47.9]
以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
論文参考訳（メタデータ） (Thu, 20 Jan 2022 18:58:03 GMT)
- 画像関連のデータ（普通の画像、動画、シングルビューの3D）について共通的に動作可能な（複数のモダリティに対応可能な）モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。
- リポジトリはGitHub – facebookresearch/omnivore: Omnivore: A Single Model for Many Visual Modalities

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31