- QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.2]
Query-based Video Highlights (QVHighlights) データセットを提示する。 これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。 データセット内の各ビデオには、(1)人が書いた自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5点満点のsaliencyスコアが注釈付けされている。
論文 参考訳(メタデータ) (Tue, 20 Jul 2021 16:42:58 GMT)- 自然言語クエリに基づくビデオ検索(シーン検索)のデータセット。1万映像と規模が大きい。ドメインは日常&旅行のvlogとnews。
- リポジトリはhttps://github.com/jayleicn/moment_detr
投稿者: staka
MNMT(Multilingual Neural Machine Translation)における冗長部分の活用
- More Parameters? No Thanks! [43.7]
多言語ニューラルマシン翻訳MNMTにおけるモデル容量と負の干渉の長期的問題について検討する。 我々はネットワークプルーニング手法を用いて、トレーニングされたMNMTモデルからパラメータの50-70%をプルーニングすると、BLEUスコアの0.29-1.98ドロップしか得られないことを観察する。 我々は,MNMTの冗長なパラメータを反復的に訓練し,多言語性を維持しながらバイリンガル表現を改善する新しい適応戦略を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 20 Jul 2021 17:04:15 GMT)- マルチリンガルなニューラル機械翻訳には冗長なパラメータが多い。著者らはマルチリンガルモデルから50%パラメータを削減したのちに、冗長だったweightを活用するトレーニングを行うことで削減前のモデルからBLEUスコアを改善できたとのこと。
- コード等はhttps://github.com/zeecoder606/PF-Adaptationで公開予定とのこと。
データ市場の研究
- Data Sharing Markets [95.1]
我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。 両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 20 Jul 2021 06:31:23 GMT)- エージェントがデータを共有・売買する状況でのゲームを研究した論文。歪ませるのが容易(低品質なデータへの加工が容易)というデータの特徴に注目し、Mixed-VCGという名前でVCGメカニズムの拡張している。
- 本件のような理論を情報銀行のような仕組みに応用できないかなと思ったりしなくはない。
Image Fusion Transformer: Transformerを使ったイメージフュージョン
- Image Fusion Transformer [75.7]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。 近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。 我々は,画像融合トランスフォーマー (IFT) を提案する。
論文 参考訳(メタデータ) (Mon, 19 Jul 2021 16:42:49 GMT)- 複数の異なるデータソースからの画像を融合(イメージフュージョン)し情報量の多い一枚の画像にするタスクにおいて、Transformerを使い優れた性能が出せたとの報告。最近よく話題になる局所的な情報と長距離で関係する情報を組み合わせられる構造となっている。
VisDrone-CC2020:ドローンからの群衆カウンティングコンペティション
- VisDrone-CC2020: The Vision Meets Drone Crowd Counting Challenge Results [186.5]
私たちは大規模なデータセットを収集し、Vision Meets Drone Crowd Counting Challenge (VisDrone-CC 2020)を組織します。 収集されたデータセットは、トレーニング用の2460の画像と、テスト用の900の画像を含む3360の画像で構成されている。 評価結果を詳細に分析し,課題を結論付ける。
論文 参考訳(メタデータ) (Mon, 19 Jul 2021 11:48:29 GMT)- VisDrone-CC 2020の結果報告。提案された14個のアルゴリズムを比較検証しておりこの分野の手法と性能を知るうえで良い資料。
- コンペティションのWEBSITEはhttp://aiskyeye.com/、2021も開催済みのよう。
画像データセットのバイアスに関するサーベイ
- A Survey on Bias in Visual Datasets [17.8]
コンピュータビジョン(CV)は、いくつかのタスクにおいて人間よりも優れた成果を上げている。 CVシステムは、供給されるデータに大きく依存し、そのようなデータ内のバイアスを学習し、増幅することができる。 本研究では,視覚データセットの収集中に異なる種類のバイアスを検出できるチェックリストを提案する。
論文 参考訳(メタデータ) (Fri, 16 Jul 2021 14:16:52 GMT)- 画像を対象にどのようなバイアスがありうるかを調査したサーベイ論文。色々なステップで入りうる多種のバイアスが紹介されており画像に限らず参考になる。24ページのチェックリストは簡潔にまとまっている。どれも重要な問いだと思う。
DANCE(DAta-Network Co-optimization for Efficient segmentation ):
- DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [85.0]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。 入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。 実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (Fri, 16 Jul 2021 04:58:58 GMT)- 入力イメージのダウンサンプリング&drop(スリム化)+ネットワーク構造の等を含めての最適化(スリム化)を協調して行うことで、計算コストの削減だけでなくネットワーク構造をさらにスリム化できるとの報告。
MultiBench: マルチモーダルなベンチマーク
- MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (Thu, 15 Jul 2021 17:54:36 GMT) - マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
- Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
- Healthcare: MIMIC
- Robotics: MuJoCo Push, Vision & Touch
- Finance: Stocks-food, Stocks-health, Stocks-tech
- HCI: ENRICO
- Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
- 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
- https://cmu-multicomp-lab.github.io/multibench/ と https://github.com/pliang279/MultiBench が公式サイト&リポジトリ
FLEX(Few-shot Language Evaluation across (X) many transfer types) & FewCLUE(Few-shotなChinese Language Understanding Evaluation Benchmark) : NLPのFew-shotベンチマーク
両報告ともFew-shotに着目したベンチマーク。1つは中国語版であり(ERNIE 3.0でも明らかだが)中国で自然言語処理の研究が盛んなことがわかる。
JGLUE構築中とのことで日本の研究動向にも注目したい。
- FLEX: Unifying Evaluation for Few-Shot NLP [17.4]
我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。 最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。 また、Fewショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
論文 参考訳(メタデータ) (Thu, 15 Jul 2021 07:37:06 GMT)
- FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.2]
この研究は、中国初の総合的な少ないサンプルでの評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介する。 1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。 次に、最先端のFewショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 15 Jul 2021 17:51:25 GMT)
Image Captioningタスクのサーベイ
- From Show to Tell: A Survey on Image Captioning [49.0]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。 画像キャプションの研究はまだ結論に達していない。 本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (Wed, 14 Jul 2021 18:00:54 GMT)- 画像からの文章生成(キャプション生成)に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表(13ページは必見)とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
- 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。