MultiBench: マルチモーダルなベンチマーク

  • MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
    MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 17:54:36 GMT)
  • マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
    • Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
    • Healthcare: MIMIC
    • Robotics: MuJoCo Push, Vision & Touch
    • Finance: Stocks-food, Stocks-health, Stocks-tech
    • HCI: ENRICO
    • Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
  • 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
  • https://cmu-multicomp-lab.github.io/multibench/https://github.com/pliang279/MultiBench が公式サイト&リポジトリ

FLEX(Few-shot Language Evaluation across (X) many transfer types) & FewCLUE(Few-shotなChinese Language Understanding Evaluation Benchmark) : NLPのFew-shotベンチマーク

両報告ともFew-shotに着目したベンチマーク。1つは中国語版であり(ERNIE 3.0でも明らかだが)中国で自然言語処理の研究が盛んなことがわかる。

JGLUE構築中とのことで日本の研究動向にも注目したい。

  • FLEX: Unifying Evaluation for Few-Shot NLP [17.4]
    我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。 最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。 また、Fewショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 07:37:06 GMT)
  • FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.2]
    この研究は、中国初の総合的な少ないサンプルでの評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介する。 1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。 次に、最先端のFewショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Jul 2021 17:51:25 GMT)

Image Captioningタスクのサーベイ

  • From Show to Tell: A Survey on Image Captioning [49.0]
    視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。 画像キャプションの研究はまだ結論に達していない。 本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 18:00:54 GMT)
    • 画像からの文章生成(キャプション生成)に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表(13ページは必見)とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
    • 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。

FastSHAP: 高速なSHAP計算(モデル)

  • FastSHAP: Real-Time Shapley Value Estimation [25.5]
    FastSHAPは、学習された説明モデルを用いて、1つのフォワードパスでShapley値を推定する手法である。 これは、Shapley値の重み付き最小二乗特徴づけにインスパイアされた学習アプローチを通じて、多くの入力を説明するコストを償却する。 これは、桁違いのスピードアップで高品質な説明を生成する。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 16:34:45 GMT)
    • シャープレイ値を高速に求めようという研究。予測が非常に高速で画像にも有効である点が興味深いもののSHAPを求めるモデルを作るというアプローチが(社会が求める)説明として有効なのか疑問ではある。

不確実性とランキングの公平性

  • Fairness in Ranking under Uncertainty [42.5]
    不公平は、より有益なエージェントが、有益でないエージェントよりも悪い結果を得るときに起こる。  私たちの中心となる点は、不公平の主な原因は不確実性であるということです。本研究では,実用性に対して最適に公平さをトレードオフするランキングの計算法を示す。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 14:10:16 GMT)
    • どのくらいの確率で事後により良いメリットをもたらすエージェントが上位にランキングするかに基づくϕ-fair (ϕ∈[0,1])という考え方を導入、それに基づいて公平なランキング方法を提案している。さらに論文推薦システムに適用したとのこと。
      • 考え方は非常に興味深いもののMerit Distributionのモデリングは簡単ではなさそうだし、実問題への適用でも十分な効果が出せなかったように見える。。 

MMGCN(MultiModal fused Graph Convolutional Network): マルチモーダルな感情認識

  • MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation [32.2]
    本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。 提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 15:37:02 GMT)
    • 音響+テキスト+画像というマルチモーダルなデータを扱って(+GCNで)感情認識タスクで優れた性能を出したという報告。マルチモーダルな情報を活用できるモデルであるが、SOTAのスコアには至っていないような・・・?

内部表現からの入力データの復元

  • Deep Neural Networks are Surprisingly Reversible: A Baseline for Zero-Shot Inversion [90.7]
    本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。 ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 18:01:43 GMT)
    • 内部表現から入力画像を戻せるか?を検討した論文。既存手法よりも高速、かつ高精度な復元が可能とのこと。(情報を残すように訓練されているとはいえ)42層後のデータからすら復元ができてるというのは面白い。

MaskFormer: マスク予測を行うアプローチによるセグメンテーション

  • Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.3]
    マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。 マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。 提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 17:59:50 GMT)
    • セグメンテーションではピクセルを分類しグルーピングしていくアプローチと物体検出後にマスク領域を予測していくアプローチの2つがある。近年はピクセルベースのアプローチが良く用いられていたが、後者のアプローチを用いセマンティックセグメンテーション、パノプティックセグメンテーションで優れた性能を達成したとのこと。
    • https://bowenc0221.github.io/maskformer/からコード等を確認可能。

CMM(Configurable Multilingual Model): マルチリンガルな音声認識

  • A Configurable Multilingual Model is All You Need to Recognize All Languages [52.3]
    本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。 CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 06:52:41 GMT)
    • 言語指定可能なマルチリンガルな音声認識モデルを構築することで1言語のモデル及び通常のマルチリンガルモデルの性能を上回ったとの報告。
    • 認識対象の言語が分かっているほうが聞き取りやすい、多言語での訓練が単言語においても有効(人間が出せる音は言語が変わっても共通部分がある)というのは人間っぽいなという感想を抱いた。

コミットメッセージの自動生成

  • On the Evaluation of Commit Message Generation Models: An Experimental Study [33.2]
    コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。 コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。 本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 02:04:53 GMT)
    • コミットメッセージの自動生成に関する調査。データセット収集も実施、かつ、公開していて今後の研究に有用。話題のcopilotよりもかゆいところに手が届くツールのような気がする。
    • データセット・コード等はhttps://github.com/DeepSoftwareAnalytics/CommitMsgEmpiricalから参照可能。