コンテンツへスキップ
- Computation-efficient Deep Learning for Computer Vision: A Survey [121.8]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。 ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。 新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (Sun, 27 Aug 2023 03:55:28 GMT)
- 効率的な画像処理モデルに関するサーベイ
- 「Efficient Backbone Models / Dynamic Deep Networks」→「Task-specialized Efficient Models」→「Model Compression Techniques」→「Efficient Deployment on Hardware」と様々なレイヤで調査がされている。
- Follow Anything: Open-set detection, tracking, and following in real-time [69.4]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。 私たちのアプローチは、何でも従う”(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 17:57:06 GMT)
- 物体検出と追跡のフレームワーク。LLMが組み合わせっているのも面白い。
- リポジトリはGitHub – alaamaalouf/FollowAnything
- MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。 我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 01:34:16 GMT)
- あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
- プロジェクトサイトはmultirobustbench.github.io
- EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 06:42:46 GMT)
- 意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
- コードおよびデータは論文公開後に公開されるらしい
- T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [96.9]
LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。 我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
論文 参考訳(メタデータ) (Thu, 6 Jul 2023 16:59:52 GMT)
- 効果的なデータフィルタリング手法の提案、画像からテキスト部分をマスキング、キャプションとの類似度を取るシンプルな手法。「Our proposed approach is based on the interesting observation that a large fraction of image-caption pairs in web-scale datasets contain images dominated by text features.」とのこと。
- リポジトリはGitHub – locuslab/T-MARS: Code for T-MARS data filtering
- Biomedical image analysis competitions: The state of current participation practice [125.2]
我々は,バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするための調査を設計した。 この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。 全体として、すべてのソリューションの94%はディープラーニングベースのものだ。そのうち84%は標準アーキテクチャに基づいていた。
論文 参考訳(メタデータ) (Fri, 16 Dec 2022 16:44:46 GMT)
- バイオメディカルな画像分析コンペティションを分析した論文