Computation-efficient Deep Learning for Computer Vision: A Survey

  • Computation-efficient Deep Learning for Computer Vision: A Survey [121.8]
    ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。 ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。 新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
    論文  参考訳(メタデータ)   (Sun, 27 Aug 2023 03:55:28 GMT)
  • 効率的な画像処理モデルに関するサーベイ
  •  「Efficient Backbone Models / Dynamic Deep Networks」→「Task-specialized Efficient Models」→「Model Compression Techniques」→「Efficient Deployment on Hardware」と様々なレイヤで調査がされている。

Follow Anything

  • Follow Anything: Open-set detection, tracking, and following in real-time [69.4]
    我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。 私たちのアプローチは、何でも従う”(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 17:57:06 GMT)
  • 物体検出と追跡のフレームワーク。LLMが組み合わせっているのも面白い。
  • リポジトリはGitHub – alaamaalouf/FollowAnything

MultiRobustBench

  • MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
    機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。 我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 01:34:16 GMT)
  • あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
  • プロジェクトサイトはmultirobustbench.github.io

EmoSet

  • EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
    EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 06:42:46 GMT)
  • 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
  • コードおよびデータは論文公開後に公開されるらしい

T-MARS: Text-Masking and Re-Scoring

  • T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [96.9]
    LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。 我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 16:59:52 GMT)
  • 効果的なデータフィルタリング手法の提案、画像からテキスト部分をマスキング、キャプションとの類似度を取るシンプルな手法。「Our proposed approach is based on the interesting observation that a large fraction of image-caption pairs in web-scale datasets contain images dominated by text features.」とのこと。
  • リポジトリはGitHub – locuslab/T-MARS: Code for T-MARS data filtering

InceptionNeXt

  • InceptionNeXt: When Inception Meets ConvNeXt [167.6]
    IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
    論文  参考訳(メタデータ)   (Wed, 29 Mar 2023 17:59:58 GMT)
  • Transformer系モデルのテクニックをCNNに応用したConvNeXtより高速で優れた性能を持つ構造の提案。
  • リポジトリはGitHub – sail-sg/inceptionnext: InceptionNeXt: When Inception Meets ConvNeXt

GIVL: Geographical Inclusivity of Vision-Language

  • GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods [62.1]
    我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。 1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。 GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 03:43:45 GMT)
  • 結婚式や祭りのような地域特性のある画像をうまく取り扱えるVLモデルの提案。GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA – arXiv最新論文の紹介 (devneko.jp)もあったがこの手の考慮は重要。
  • コードなどはリリース予定とのこと。

Biomedical image analysis competitions: The state of current participation practice

  • Biomedical image analysis competitions: The state of current participation practice [125.2]
    我々は,バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするための調査を設計した。 この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。 全体として、すべてのソリューションの94%はディープラーニングベースのものだ。そのうち84%は標準アーキテクチャに基づいていた。
    論文  参考訳(メタデータ)   (Fri, 16 Dec 2022 16:44:46 GMT)
  • バイオメディカルな画像分析コンペティションを分析した論文

Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement

  • Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement [58.1]
    水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。 我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。 また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
    論文  参考訳(メタデータ)   (Sat, 19 Nov 2022 07:50:34 GMT)
  • 水中画像の画像処理
  • リポジトリはwdhudiekou/STSC: Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement (github.com)

Never-Ending VIsual-classification Stream (Nevis’22)

  • NEVIS’22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.5]
    我々は100以上の視覚的分類タスクのストリームからなるベンチマークであるNever Ending VIsual-classification Stream (NEVIS’22)を紹介する。 分類に制限されているにもかかわらず,OCRからテクスチャ分析,群集数,シーン認識など,様々なタスクが生み出されている。 NEVIS’22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 18:57:46 GMT)
  • 画像系ベンチマークを収集したもので106タスクからなるとのこと。AutoMLのターゲットになるのかなーと思う。
  • リポジトリはdeepmind/dm_nevis: NEVIS’22: Benchmarking the next generation of never-ending learners (github.com)Benchmarking the next generation of never-ending learners (deepmind.com)にBlogの記事がある。