ConvNeXt: ResNetの近代化

  • A ConvNet for the 2020s [94.9]
    ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。 これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。 本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 10 Jan 2022 18:59:10 GMT)

RAWイメージを介した敵対的攻撃の防御

  • All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
    画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Dec 2021 21:54:26 GMT)
    • RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。

ViT-BERT: 言語と画像の統一的基礎モデル

  • Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
    我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。 我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。 実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
    論文  参考訳(メタデータ)   (Tue, 14 Dec 2021 00:20:55 GMT)
    • 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

人間が学ぶためのAI

効率的な顔認識のサーベイ

  • Detect Faces Efficiently: A Survey and Evaluations [13.1]
    顔認識、表情認識、顔追跡、頭部推定を含む多くの応用は、画像中の顔の位置と大きさの両方が知られていると仮定する。 ディープラーニング技術は、かなりの計算量の増加と共に、対面検出に驚くべきブレークスルーをもたらした。 本稿では, 代表的な深層学習手法を紹介し, 精度と効率性の観点から, 深く, 徹底的な分析を行う。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Dec 2021 08:39:40 GMT)
    • Deep Learningの応用先としても有力な顔認識に関するサーベイ。主要なモデルを振り返るうえで非常に参考になる。

Dream Fields: テキスト表現からの3Dオブジェクト生成

  • Zero-Shot Text-Guided Object Generation with Dream Fields [111.1]
    ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。 提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。 実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Dec 2021 17:53:55 GMT)
    • テキストから3次元オブジェクト生成するモデルの提案。論文の通りNeRF(Neural Radiance Fields) とCLIPをつかってできそうな気はするものの、プロジェクトサイトにある結果を見ると非常に面白い。
    • プロジェクトサイトはZero-Shot Text-Guided Object Generation with Dream Fields (ajayj.com)

CLIPstyler: テキストを用いた画像スタイル変換

  • CLIPstyler: Image Style Transfer with a Single Text Condition [34.2]
    既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。 そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 1 Dec 2021 09:48:53 GMT)
    • テキストの指示を用いて画像のスタイルを変換する研究。「画像」+「Fireというテキスト」を与えると炎で包まれているような画像が生成される。サンプルが面白い。

SEAL(Self-supervised Embodied Active Learning) : 3D空間で行動・知覚・学習

  • SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency [122.2]
    本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。 インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。 我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Dec 2021 06:26:38 GMT)

アナログ時計を読み取るモデル

  • It’s About Time: Analog Clock Reading in the Wild [93.8]
    自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。 我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。 提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 17 Nov 2021 14:52:02 GMT)
    • 合成データを活用&時計の識別→歪みの補正→時計の読み取りというパイプライン&パイプライン内はTransformer等も活用、と最近流行な手法を取り入れているのが興味深い。画像から何かを読み取るモデルを構築する際に参考になりそう。
      • 伝統的な画像処理では対応できないのだろうかと思いつつも、単純そうに見えるタスクが難しいことも多い。本件もそんな感じなのかなと思う。

Swin Transformer V2

  • Swin Transformer V2: Scaling Up Capacity and Resolution [45.5]
    我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536×1,536解像度の画像でトレーニングできるようにする。 キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 18 Nov 2021 18:59:33 GMT)
    • Object Detectionなどで有名なSwin Transformerのversion 2(アーキテクチャにも手が入れられている)。下記リポジトリにSoTAが並ぶ優れた性能。
    • リポジトリはhttps://github.com/microsoft/Swin-Transformer