2021年11月19日 – arXiv最新論文の紹介

ビジネス文書を対象としたAI適用のサーベイ

Document AI: Benchmarks, Models and Applications [35.5]
ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
論文参考訳（メタデータ） (Tue, 16 Nov 2021 16:43:07 GMT)
- ドキュメントを対象とした分析のサーベイ。レイアウト分析、情報抽出、Visual Question Answeringなど様々なタスクの概要とベンチマーク、モデル等を解説しており参考になる。できることは増えてきているので応用が進んでほしい。
- サーベイ中、日本語のデータセットはGitHub – doc-analysis/XFUND: XFUND: A Multilingual Form Understanding Benchmarkのみ。ほとんど英語というのは残念。

Attention Mechanisms in Computer Vision: A Survey [75.6]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。我々は注意機構研究の今後の方向性を提案する。
論文参考訳（メタデータ） (Mon, 15 Nov 2021 09:18:40 GMT)
- 画像関連処理におけるアテンションのサーベイ。すごい情報量で様々な取り組みが行われてきたことが分かる。
- リポジトリはhttps://github.com/MenghaoGuo/Awesome-Vision-Attentions

INTERN: A New Learning Paradigm Towards General Vision [117.3]
我々はInterNという新しい学習パラダイムを開発した。複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文参考訳（メタデータ） (Tue, 16 Nov 2021 18:42:50 GMT)
- 大規模LMのようなGeneral Vision Modelを構築することで少数の学習データで優れた性能を発揮するモデルを作れるとの報告。GV-D:General Vision Dataとして100億サンプル、119Kコンセプトのデータセット、 GV-A: General Vision Architecture としてTransformer+Convolutionalな構造、GV-B: General Vision Benchmark として26のタスクを用いて段階的な学習を行うことでCLIPを超える強力なゼネラリストモデルを構築したとのこと。
- 実装等公開予定とのことで詳細はそこで確認したい。