2021年7月19日 – arXiv最新論文の紹介

MultiBench: マルチモーダルなベンチマーク

MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文参考訳（メタデータ） (Thu, 15 Jul 2021 17:54:36 GMT)
マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
- Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
- Healthcare: MIMIC
- Robotics: MuJoCo Push, Vision & Touch
- Finance: Stocks-food, Stocks-health, Stocks-tech
- HCI: ENRICO
- Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
https://cmu-multicomp-lab.github.io/multibench/ と https://github.com/pliang279/MultiBench が公式サイト＆リポジトリ

両報告ともFew-shotに着目したベンチマーク。1つは中国語版であり（ERNIE 3.0でも明らかだが）中国で自然言語処理の研究が盛んなことがわかる。

JGLUE構築中とのことで日本の研究動向にも注目したい。

FLEX: Unifying Evaluation for Few-Shot NLP [17.4]
我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。また、Fewショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
論文参考訳（メタデータ） (Thu, 15 Jul 2021 07:37:06 GMT)
- https://github.com/allenai/flex がリポジトリ

FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.2]
この研究は、中国初の総合的な少ないサンプルでの評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介する。 1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。次に、最先端のFewショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 15 Jul 2021 17:51:25 GMT)
- https://github.com/cluebenchmark/fewclue　がリポジトリ

From Show to Tell: A Survey on Image Captioning [49.0]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。画像キャプションの研究はまだ結論に達していない。本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文参考訳（メタデータ） (Wed, 14 Jul 2021 18:00:54 GMT)
- 画像からの文章生成（キャプション生成）に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表（13ページは必見）とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
- 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。

FastSHAP: Real-Time Shapley Value Estimation [25.5]
FastSHAPは、学習された説明モデルを用いて、1つのフォワードパスでShapley値を推定する手法である。これは、Shapley値の重み付き最小二乗特徴づけにインスパイアされた学習アプローチを通じて、多くの入力を説明するコストを償却する。これは、桁違いのスピードアップで高品質な説明を生成する。
論文参考訳（メタデータ） (Thu, 15 Jul 2021 16:34:45 GMT)
- シャープレイ値を高速に求めようという研究。予測が非常に高速で画像にも有効である点が興味深いもののSHAPを求めるモデルを作るというアプローチが（社会が求める）説明として有効なのか疑問ではある。