CIRR( Composed Image Retrieval on Real-life images)データセットとCIRPLANT(Composed Image Retrieval using Pretrained LANguage Transformers )モデル

  • Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
    合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。 比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 13:25:06 GMT)
  • テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
  • プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/

Neural paintingのためのPaint Transformer、画像に対するストローク生成

  • Paint Transformer: Feed Forward Neural Painting with Stroke Prediction [36.5]
    我々は,フィードフォワードネットワークを用いたストロークセットのパラメータを予測するために,Paint Transformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。 このようにして、我々のモデルは並列に一組のストロークを生成でき、ほぼリアルタイムでサイズ512 * 512の最終的な絵を得ることができる。 実験により,本手法はトレーニングコストと推論コストの低減により,従来の手法よりも優れた塗装性能が得られることが示された。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 04:18:58 GMT)
    • ニューラル・ペインティング(Neural painting)では、ある画像に対して一連のストロークを生成し絵画として再現する。強化学習を用いるアプローチではなく、予測問題として問題を定式化してTransformerベースのアーキテクチャで解いたとの報告。リポジトリにあるAnimated Outputが分かりやすい。
    • self-training pipelineをうまく組んだ構成となっており、問題に対するアプローチを検討するうえで参考になる。
    • リポジトリはhttps://github.com/Huage001/PaintTransformer

AutoVideo: ビデオからの行動認識AutoML

  • AutoVideo: An Automated Video Action Recognition System [38.4]
    AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。 7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。 AutoMLのサーチと簡単に組み合わせることができる。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 17:53:32 GMT)

OCRで作成されたテキストに対するNLP

  • Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents [2.6]
    我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。 まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。 コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 00:32:54 GMT)
    • OCRで作られたテキストに対するNLPは通常のテキストと異なる問題が多々ある。この論文ではNERを対象にOCRにありがちなエラーを再現するフレームワークを構築し、合成データを増やしてデータ不足に対応するアプローチを紹介している。

StrucTexT:マルチモーダルな構造化テキスト理解

  • StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
    Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 本稿では,SrucTexTという統合フレームワークを提案する。 セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 02:57:07 GMT)
    • 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。

UniCon(Unified Context Network): アクティブな話者検出

  • UniCon: Unified Context Network for Robust Active Speaker Detection [111.9]
    我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。 私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。 異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 13:25:44 GMT)

AI Economist: 強化学習を用いた課税モデルの検証

  • The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning [126.4]
    機械学習に基づく経済シミュレーションは強力な政策・メカニズム設計の枠組みであることを示す。 AIエコノミスト(AI Economist)は、エージェントと共同適応するソーシャルプランナーの両方を訓練する2段階のディープRLフレームワークである。 単純な一段階の経済では、AIエコノミストは経済理論の最適税制を再現する。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 17:42:35 GMT)
    • 深層強化学習を政策に取り入れられるかを検討・シミュレーションした研究。複雑な状況でも動作し、突発的な戦略的行動(≒節税的行動)があった場合も対応していくとのこと。現実に利用可能かはおいておいて興味深い研究だと思う。
    • ソースコードはhttps://github.com/salesforce/ai-economist、Salesforce Researchのhttps://einstein.ai/the-ai-economist関連のプロジェクト。
  • Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.1]
    AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 01:30:41 GMT)
    • 関連する報告があったため追加。

CSRA(Class-Specific Residual Attention): マルチラベル画像認識モデルへのシンプルかつ強力なモジュール

  • Residual Attention: A Simple but Effective Method for Multi-Label Recognition [29.2]
    クラス固有残差注意(CSRA)という,恥ずかしいほど単純なモジュールを提案する。 CSRAは、単純な空間的注意スコアを提案し、クラスに依存しない平均プール機能と組み合わせることで、各カテゴリのクラス固有の特徴を生成する。 4行のコードだけで、CSRAは追加のトレーニングなしで、さまざまな事前訓練されたモデルやデータセットに対して一貫した改善をもたらす。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 08:45:57 GMT)
    • an embarrassingly simple module(恥ずかしいほどシンプルなモジュール)と書かれているように下記のとてもシンプルなモジュールを入れるだけでマルチラベル画像認識モデルの性能が向上するとした論文。予測時に入れるだけでトレーニングも不要と驚きの性能。動作に関する分析も行っている。
      • モジュールのコード(論文より引用)
        y_raw = FC(x).flatten(2)
        y_avg = torch.mean(y_raw, dim=2)
        y_max = torch.max(y_raw, dim=2)[0]
        score = y_avg + Lambda * y_max
      • Lambdaはハイパーパラメータ

GAN Sketching: ユーザのスケッチに適合した画像生成GAN作成

  • Sketch Your Own GAN [36.8]
    本稿では1つ以上のスケッチでGANを書き換える手法であるGAN Sketchingを提案する。 我々は、ドメイン間の敵対的損失を通じて、ユーザスケッチにマッチするようにモデルの出力を奨励する。 提案手法は,写実性や多様性を保ちながら,スケッチで指定した形状やポーズに適合するGANを成形できることを示した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 5 Aug 2021 17:59:42 GMT)
    • 1枚程度のスケッチからそれに適合するようにモデルのweightを変更しGANモデル自体を生成するという論文。複雑なポーズの指定や独特なスタイルでのスケッチではうまく動かないという失敗事例も興味深い結果。プロジェクトサイトの独特なスケッチをみて何となく納得した。
    • プロジェクトサイトはhttps://peterwang512.github.io/GANSketching/、リポジトリはhttps://github.com/peterwang512/GANSketching(現時点で公開予定)
      • プロジェクトサイトにはたまに怖い画像がある。。。

Poison Ink: 目に見えないバックドア攻撃

  • Poison Ink: Robust and Invisible Backdoor Attack [122.5]
    我々はポイズン・インクと呼ばれる頑健で目に見えないバックドア攻撃を提案する。 具体的には、まず、画像構造を標的の中毒領域として利用し、それらを毒インク(情報)で満たしてトリガーパターンを生成する。 既存の一般的なバックドア攻撃方法と比較して、Poison Inkはステルスネスとロバストネスの両方で優れている。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 09:52:49 GMT)
    • 画像の構造(物体の輪郭)に情報を埋め込んだバックドア攻撃の提案。防御手法の多くが仮定している「静的パッチが埋め込まれた状況」とは異なり、動的な場所のため防御が難しいとのこと。
    • 論文中にも書かれている通り「DNNは浅い層で構造を捉えやすいが、最終的にはテクスチャ情報を分類の重要な手掛かりにしている」という特徴をうまく利用している。