- Image Fusion Transformer [75.7]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。 近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。 我々は,画像融合トランスフォーマー (IFT) を提案する。
論文 参考訳(メタデータ) (Mon, 19 Jul 2021 16:42:49 GMT)- 複数の異なるデータソースからの画像を融合(イメージフュージョン)し情報量の多い一枚の画像にするタスクにおいて、Transformerを使い優れた性能が出せたとの報告。最近よく話題になる局所的な情報と長距離で関係する情報を組み合わせられる構造となっている。
VisDrone-CC2020:ドローンからの群衆カウンティングコンペティション
- VisDrone-CC2020: The Vision Meets Drone Crowd Counting Challenge Results [186.5]
私たちは大規模なデータセットを収集し、Vision Meets Drone Crowd Counting Challenge (VisDrone-CC 2020)を組織します。 収集されたデータセットは、トレーニング用の2460の画像と、テスト用の900の画像を含む3360の画像で構成されている。 評価結果を詳細に分析し,課題を結論付ける。
論文 参考訳(メタデータ) (Mon, 19 Jul 2021 11:48:29 GMT)- VisDrone-CC 2020の結果報告。提案された14個のアルゴリズムを比較検証しておりこの分野の手法と性能を知るうえで良い資料。
- コンペティションのWEBSITEはhttp://aiskyeye.com/、2021も開催済みのよう。
画像データセットのバイアスに関するサーベイ
- A Survey on Bias in Visual Datasets [17.8]
コンピュータビジョン(CV)は、いくつかのタスクにおいて人間よりも優れた成果を上げている。 CVシステムは、供給されるデータに大きく依存し、そのようなデータ内のバイアスを学習し、増幅することができる。 本研究では,視覚データセットの収集中に異なる種類のバイアスを検出できるチェックリストを提案する。
論文 参考訳(メタデータ) (Fri, 16 Jul 2021 14:16:52 GMT)- 画像を対象にどのようなバイアスがありうるかを調査したサーベイ論文。色々なステップで入りうる多種のバイアスが紹介されており画像に限らず参考になる。24ページのチェックリストは簡潔にまとまっている。どれも重要な問いだと思う。
DANCE(DAta-Network Co-optimization for Efficient segmentation ):
- DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [85.0]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。 入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。 実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (Fri, 16 Jul 2021 04:58:58 GMT)- 入力イメージのダウンサンプリング&drop(スリム化)+ネットワーク構造の等を含めての最適化(スリム化)を協調して行うことで、計算コストの削減だけでなくネットワーク構造をさらにスリム化できるとの報告。
MultiBench: マルチモーダルなベンチマーク
- MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (Thu, 15 Jul 2021 17:54:36 GMT) - マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
- Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
- Healthcare: MIMIC
- Robotics: MuJoCo Push, Vision & Touch
- Finance: Stocks-food, Stocks-health, Stocks-tech
- HCI: ENRICO
- Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
- 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
- https://cmu-multicomp-lab.github.io/multibench/ と https://github.com/pliang279/MultiBench が公式サイト&リポジトリ
FLEX(Few-shot Language Evaluation across (X) many transfer types) & FewCLUE(Few-shotなChinese Language Understanding Evaluation Benchmark) : NLPのFew-shotベンチマーク
両報告ともFew-shotに着目したベンチマーク。1つは中国語版であり(ERNIE 3.0でも明らかだが)中国で自然言語処理の研究が盛んなことがわかる。
JGLUE構築中とのことで日本の研究動向にも注目したい。
- FLEX: Unifying Evaluation for Few-Shot NLP [17.4]
我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。 最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。 また、Fewショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
論文 参考訳(メタデータ) (Thu, 15 Jul 2021 07:37:06 GMT)
- FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.2]
この研究は、中国初の総合的な少ないサンプルでの評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介する。 1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。 次に、最先端のFewショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 15 Jul 2021 17:51:25 GMT)
Image Captioningタスクのサーベイ
- From Show to Tell: A Survey on Image Captioning [49.0]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。 画像キャプションの研究はまだ結論に達していない。 本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (Wed, 14 Jul 2021 18:00:54 GMT)- 画像からの文章生成(キャプション生成)に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表(13ページは必見)とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
- 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。
FastSHAP: 高速なSHAP計算(モデル)
- FastSHAP: Real-Time Shapley Value Estimation [25.5]
FastSHAPは、学習された説明モデルを用いて、1つのフォワードパスでShapley値を推定する手法である。 これは、Shapley値の重み付き最小二乗特徴づけにインスパイアされた学習アプローチを通じて、多くの入力を説明するコストを償却する。 これは、桁違いのスピードアップで高品質な説明を生成する。
論文 参考訳(メタデータ) (Thu, 15 Jul 2021 16:34:45 GMT)- シャープレイ値を高速に求めようという研究。予測が非常に高速で画像にも有効である点が興味深いもののSHAPを求めるモデルを作るというアプローチが(社会が求める)説明として有効なのか疑問ではある。
不確実性とランキングの公平性
- Fairness in Ranking under Uncertainty [42.5]
不公平は、より有益なエージェントが、有益でないエージェントよりも悪い結果を得るときに起こる。 私たちの中心となる点は、不公平の主な原因は不確実性であるということです。本研究では,実用性に対して最適に公平さをトレードオフするランキングの計算法を示す。
論文 参考訳(メタデータ) (Wed, 14 Jul 2021 14:10:16 GMT)- どのくらいの確率で事後により良いメリットをもたらすエージェントが上位にランキングするかに基づくϕ-fair (ϕ∈[0,1])という考え方を導入、それに基づいて公平なランキング方法を提案している。さらに論文推薦システムに適用したとのこと。
- 考え方は非常に興味深いもののMerit Distributionのモデリングは簡単ではなさそうだし、実問題への適用でも十分な効果が出せなかったように見える。。
- どのくらいの確率で事後により良いメリットをもたらすエージェントが上位にランキングするかに基づくϕ-fair (ϕ∈[0,1])という考え方を導入、それに基づいて公平なランキング方法を提案している。さらに論文推薦システムに適用したとのこと。
MMGCN(MultiModal fused Graph Convolutional Network): マルチモーダルな感情認識
- MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation [32.2]
本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。 提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
論文 参考訳(メタデータ) (Wed, 14 Jul 2021 15:37:02 GMT)- 音響+テキスト+画像というマルチモーダルなデータを扱って(+GCNで)感情認識タスクで優れた性能を出したという報告。マルチモーダルな情報を活用できるモデルであるが、SOTAのスコアには至っていないような・・・?