2021年8月 – ページ 4 – arXiv最新論文の紹介

AutoVideo: ビデオからの行動認識AutoML

AutoVideo: An Automated Video Action Recognition System [38.4]
AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。 7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。 AutoMLのサーチと簡単に組み合わせることができる。
論文参考訳（メタデータ） (Mon, 9 Aug 2021 17:53:32 GMT)
- ビデオから行動を認識するためのAutoML。画像系のものは多いが動画像を対象としたものは珍しいと思う。
- リポジトリはhttps://github.com/datamllab/autovideo、サポートするアルゴリズムはhttps://github.com/datamllab/autovideo#supported-algorithms

OCRで作成されたテキストに対するNLP

Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents [2.6]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文参考訳（メタデータ） (Fri, 6 Aug 2021 00:32:54 GMT)
- OCRで作られたテキストに対するNLPは通常のテキストと異なる問題が多々ある。この論文ではNERを対象にOCRにありがちなエラーを再現するフレームワークを構築し、合成データを増やしてデータ不足に対応するアプローチを紹介している。
- リポジトリはhttps://github.com/microsoft/genalog

StrucTexT:マルチモーダルな構造化テキスト理解

StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。本稿では,SrucTexTという統合フレームワークを提案する。セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文参考訳（メタデータ） (Fri, 6 Aug 2021 02:57:07 GMT)
- 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。

UniCon(Unified Context Network): アクティブな話者検出

UniCon: Unified Context Network for Robust Active Speaker Detection [111.9]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文参考訳（メタデータ） (Thu, 5 Aug 2021 13:25:44 GMT)
- ビデオからの話者推定タスクAVA Challenge / Active Speaker (https://research.google.com/ava/challenge.html)でトップを取ったチームが出した論文。4ページの図を見ても高度なモデルの組み合わせで実現していることが分かる。
- プロジェクトサイトはhttps://unicon-asd.github.io/

AI Economist: 強化学習を用いた課税モデルの検証

The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning [126.4]
機械学習に基づく経済シミュレーションは強力な政策・メカニズム設計の枠組みであることを示す。 AIエコノミスト(AI Economist)は、エージェントと共同適応するソーシャルプランナーの両方を訓練する2段階のディープRLフレームワークである。単純な一段階の経済では、AIエコノミストは経済理論の最適税制を再現する。
論文参考訳（メタデータ） (Thu, 5 Aug 2021 17:42:35 GMT)
- 深層強化学習を政策に取り入れられるかを検討・シミュレーションした研究。複雑な状況でも動作し、突発的な戦略的行動（≒節税的行動）があった場合も対応していくとのこと。現実に利用可能かはおいておいて興味深い研究だと思う。
- ソースコードはhttps://github.com/salesforce/ai-economist、Salesforce Researchのhttps://einstein.ai/the-ai-economist関連のプロジェクト。

Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.1]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (Fri, 6 Aug 2021 01:30:41 GMT)
- 関連する報告があったため追加。

CSRA(Class-Specific Residual Attention): マルチラベル画像認識モデルへのシンプルかつ強力なモジュール

Residual Attention: A Simple but Effective Method for Multi-Label Recognition [29.2]
クラス固有残差注意(CSRA)という,恥ずかしいほど単純なモジュールを提案する。 CSRAは、単純な空間的注意スコアを提案し、クラスに依存しない平均プール機能と組み合わせることで、各カテゴリのクラス固有の特徴を生成する。 4行のコードだけで、CSRAは追加のトレーニングなしで、さまざまな事前訓練されたモデルやデータセットに対して一貫した改善をもたらす。
論文参考訳（メタデータ） (Thu, 5 Aug 2021 08:45:57 GMT)
- an embarrassingly simple module（恥ずかしいほどシンプルなモジュール）と書かれているように下記のとてもシンプルなモジュールを入れるだけでマルチラベル画像認識モデルの性能が向上するとした論文。予測時に入れるだけでトレーニングも不要と驚きの性能。動作に関する分析も行っている。
  - モジュールのコード（論文より引用）
    y_raw = FC(x).flatten(2) y_avg = torch.mean(y_raw, dim=2) y_max = torch.max(y_raw, dim=2)[0] score = y_avg + Lambda * y_max
  - Lambdaはハイパーパラメータ

GAN Sketching: ユーザのスケッチに適合した画像生成GAN作成

Sketch Your Own GAN [36.8]
本稿では1つ以上のスケッチでGANを書き換える手法であるGAN Sketchingを提案する。我々は、ドメイン間の敵対的損失を通じて、ユーザスケッチにマッチするようにモデルの出力を奨励する。提案手法は,写実性や多様性を保ちながら,スケッチで指定した形状やポーズに適合するGANを成形できることを示した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 5 Aug 2021 17:59:42 GMT)
- 1枚程度のスケッチからそれに適合するようにモデルのweightを変更しGANモデル自体を生成するという論文。複雑なポーズの指定や独特なスタイルでのスケッチではうまく動かないという失敗事例も興味深い結果。プロジェクトサイトの独特なスケッチをみて何となく納得した。
- プロジェクトサイトはhttps://peterwang512.github.io/GANSketching/、リポジトリはhttps://github.com/peterwang512/GANSketching（現時点で公開予定）
  - プロジェクトサイトにはたまに怖い画像がある。。。

Poison Ink: 目に見えないバックドア攻撃

Poison Ink: Robust and Invisible Backdoor Attack [122.5]
我々はポイズン・インクと呼ばれる頑健で目に見えないバックドア攻撃を提案する。具体的には、まず、画像構造を標的の中毒領域として利用し、それらを毒インク(情報)で満たしてトリガーパターンを生成する。既存の一般的なバックドア攻撃方法と比較して、Poison Inkはステルスネスとロバストネスの両方で優れている。
論文参考訳（メタデータ） (Thu, 5 Aug 2021 09:52:49 GMT)
- 画像の構造（物体の輪郭）に情報を埋め込んだバックドア攻撃の提案。防御手法の多くが仮定している「静的パッチが埋め込まれた状況」とは異なり、動的な場所のため防御が難しいとのこと。
- 論文中にも書かれている通り「DNNは浅い層で構造を捉えやすいが、最終的にはテクスチャ情報を分類の重要な手掛かりにしている」という特徴をうまく利用している。

I2V-GAN:infrared-to-visible-GAN、赤外線映像から可視光映像への変換

I2V-GAN: Unpaired Infrared-to-Visible Video Translation [14.2]
本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
論文参考訳（メタデータ） (Wed, 4 Aug 2021 05:24:30 GMT)
赤外線の映像から可視光の映像に変換するモデルの提案。赤外線可視光変換ネットワークI2V-GANは優れた性能を出したとのこと。本件に使用した12 CLIP、24kフレームのデータセットもIRVIという名前で公開されている。
コードとデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。

InferWiki: Knowledge Graph Completion（知識グラフの補完）データセット

Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.1]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。各テストサンプルは、トレーニングセットの支持データで予測可能である。実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文参考訳（メタデータ） (Tue, 3 Aug 2021 09:51:15 GMT)
- Link Prediction、Triple Classiﬁcationタスクを想定したデータセットとベンチマークの提案。既存データセットには予測不可能なtripleや意味のないtripleがあり、構築プロセスに問題があると指摘。予測可能性を保証するため学習/テストデータをランダムスプリットにより作るのではなく一定のルールによりスプリット、手動でアノテーションされたnegativeやunknownの情報を提供、様々な推論パターンを加えるなど工夫したデータセットになっているとのこと。
- リポジトリはhttps://github.com/TaoMiner/inferwiki

2021年8月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31