2021年11月 – ページ 2 – arXiv最新論文の紹介

UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文参考訳（メタデータ） (Fri, 19 Nov 2021 03:23:10 GMT)
- 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

アナログ時計を読み取るモデル

It’s About Time: Analog Clock Reading in the Wild [93.8]
自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 14:52:02 GMT)
- 合成データを活用＆時計の識別→歪みの補正→時計の読み取りというパイプライン＆パイプライン内はTransformer等も活用、と最近流行な手法を取り入れているのが興味深い。画像から何かを読み取るモデルを構築する際に参考になりそう。
  - 伝統的な画像処理では対応できないのだろうかと思いつつも、単純そうに見えるタスクが難しいことも多い。本件もそんな感じなのかなと思う。
- プロジェクトサイトはhttps://charigyang.github.io/abouttime/

RAVEN: モデルは新たに文書を作っているのか、学習データをコピーしているのか

How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.8]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (Thu, 18 Nov 2021 04:07:09 GMT)
- 新規に出てきたn-gramに注目しテキストの新規性を評価する手法RAVENを開発。言語モデルが生成したテキストは学習データのコピーではないか？という疑問は昔から持っていて興味深い内容。局所的な構造では新規性が低め、全体的な構造では新規性が高め、GPT-2を対象とした解析では意味的問題が散見されたとのこと。
  - 非常に長い文を複製する（例外的な）事象がみられたとあり、この印象がコピーを行っている疑念につながっているのではないかと思う。
  - RAVENの命名はエドガー・アラン・ポーの大鴉 – Wikipediaからだそう。
- コード等は公開予定とのこと。

DataCLUE: Data-Centric AIのベンチマーク

DataCLUE: A Benchmark Suite for Data-centric NLP [11.0]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの難しさを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 16:24:55 GMT)
- モデル性能向上のためデータの品質向上を重視する、Data-centric AIに関するベンチマーク（コンペティション）。CLUE(Chinese Language Understanding Evaluation Benchmark)をベースにしているので中国語版。
  - Data-Centric AI Competition (https-deeplearning-ai.github.io)のようなコンペが開かれていたりもして興味深い活動。
  - FuguMTのデータで似たようなことやれないかなと思いつつ、機械翻訳モデルは学習コストが高いのが難点だなと思う。
- プロジェクトサイト（英語版）はhttps://github.com/CLUEbenchmark/DataCLUE/blob/master/README_en.md
ニューラル機械翻訳モデルと対訳データの品質 | ぷるーふおぶこんせぷと (staka.jp)　でも記載した通り、ニューラル機械翻訳モデル構築においては対訳データの品質が非常に重要。FuguMTのデータを用いてデータ中心（データの品質向上技術を競う）ベンチマークを作りたいなと思わなくもない。

Swin Transformer V2

Swin Transformer V2: Scaling Up Capacity and Resolution [45.5]
我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536×1,536解像度の画像でトレーニングできるようにする。キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 18 Nov 2021 18:59:33 GMT)
- Object Detectionなどで有名なSwin Transformerのversion 2（アーキテクチャにも手が入れられている）。下記リポジトリにSoTAが並ぶ優れた性能。
- リポジトリはhttps://github.com/microsoft/Swin-Transformer

XLS-R(Cross-lingual Speech Representation): 多言語音声の大規模事前学習

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 18:49:42 GMT)
- 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
  - NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
- リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

ビジネス文書を対象としたAI適用のサーベイ

Document AI: Benchmarks, Models and Applications [35.5]
ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
論文参考訳（メタデータ） (Tue, 16 Nov 2021 16:43:07 GMT)
- ドキュメントを対象とした分析のサーベイ。レイアウト分析、情報抽出、Visual Question Answeringなど様々なタスクの概要とベンチマーク、モデル等を解説しており参考になる。できることは増えてきているので応用が進んでほしい。
- サーベイ中、日本語のデータセットはGitHub – doc-analysis/XFUND: XFUND: A Multilingual Form Understanding Benchmarkのみ。ほとんど英語というのは残念。

Computer Visionにおけるアテンションのサーベイ

Attention Mechanisms in Computer Vision: A Survey [75.6]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。我々は注意機構研究の今後の方向性を提案する。
論文参考訳（メタデータ） (Mon, 15 Nov 2021 09:18:40 GMT)
- 画像関連処理におけるアテンションのサーベイ。すごい情報量で様々な取り組みが行われてきたことが分かる。
- リポジトリはhttps://github.com/MenghaoGuo/Awesome-Vision-Attentions

INTERN: 強力なGeneral Vision Model

INTERN: A New Learning Paradigm Towards General Vision [117.3]
我々はInterNという新しい学習パラダイムを開発した。複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文参考訳（メタデータ） (Tue, 16 Nov 2021 18:42:50 GMT)
- 大規模LMのようなGeneral Vision Modelを構築することで少数の学習データで優れた性能を発揮するモデルを作れるとの報告。GV-D:General Vision Dataとして100億サンプル、119Kコンセプトのデータセット、 GV-A: General Vision Architecture としてTransformer+Convolutionalな構造、GV-B: General Vision Benchmark として26のタスクを用いて段階的な学習を行うことでCLIPを超える強力なゼネラリストモデルを構築したとのこと。
- 実装等公開予定とのことで詳細はそこで確認したい。

GameにおけるAIのサーベイ

AI in Games: Techniques, Challenges and Opportunities [40.9]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文参考訳（メタデータ） (Mon, 15 Nov 2021 09:35:53 GMT)
- 碁のようなボードゲーム、テキサス・ホールデムのようなカードゲーム、FPS、リアルタイムストラテジーゲームと4種類のゲームとそのAIに関するサーベイ。ゲームは意思決定と密接に関わっており、応用範囲は広い印象。

2021年11月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30