Image Captioningタスクのサーベイ

  • From Show to Tell: A Survey on Image Captioning [49.0]
    視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。 画像キャプションの研究はまだ結論に達していない。 本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 18:00:54 GMT)
    • 画像からの文章生成(キャプション生成)に対する包括的なサーベイ。画像のエンコーディング、言語モデル、学習戦略、評価、代表的なデータセット、性能表(13ページは必見)とこの分野が素晴らしく整理されている。7.IMAGE CAPTIONING VARIANTS、8. CONCLUSIONS AND FUTURE DIRECTIONSも参考になる。
    • 引用リストを除き18ページと内容のわりにコンパクトだが、引用数は220。

FastSHAP: 高速なSHAP計算(モデル)

  • FastSHAP: Real-Time Shapley Value Estimation [25.5]
    FastSHAPは、学習された説明モデルを用いて、1つのフォワードパスでShapley値を推定する手法である。 これは、Shapley値の重み付き最小二乗特徴づけにインスパイアされた学習アプローチを通じて、多くの入力を説明するコストを償却する。 これは、桁違いのスピードアップで高品質な説明を生成する。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 16:34:45 GMT)
    • シャープレイ値を高速に求めようという研究。予測が非常に高速で画像にも有効である点が興味深いもののSHAPを求めるモデルを作るというアプローチが(社会が求める)説明として有効なのか疑問ではある。

不確実性とランキングの公平性

  • Fairness in Ranking under Uncertainty [42.5]
    不公平は、より有益なエージェントが、有益でないエージェントよりも悪い結果を得るときに起こる。  私たちの中心となる点は、不公平の主な原因は不確実性であるということです。本研究では,実用性に対して最適に公平さをトレードオフするランキングの計算法を示す。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 14:10:16 GMT)
    • どのくらいの確率で事後により良いメリットをもたらすエージェントが上位にランキングするかに基づくϕ-fair (ϕ∈[0,1])という考え方を導入、それに基づいて公平なランキング方法を提案している。さらに論文推薦システムに適用したとのこと。
      • 考え方は非常に興味深いもののMerit Distributionのモデリングは簡単ではなさそうだし、実問題への適用でも十分な効果が出せなかったように見える。。 

MMGCN(MultiModal fused Graph Convolutional Network): マルチモーダルな感情認識

  • MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation [32.2]
    本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。 提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 15:37:02 GMT)
    • 音響+テキスト+画像というマルチモーダルなデータを扱って(+GCNで)感情認識タスクで優れた性能を出したという報告。マルチモーダルな情報を活用できるモデルであるが、SOTAのスコアには至っていないような・・・?

内部表現からの入力データの復元

  • Deep Neural Networks are Surprisingly Reversible: A Baseline for Zero-Shot Inversion [90.7]
    本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。 ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 18:01:43 GMT)
    • 内部表現から入力画像を戻せるか?を検討した論文。既存手法よりも高速、かつ高精度な復元が可能とのこと。(情報を残すように訓練されているとはいえ)42層後のデータからすら復元ができてるというのは面白い。

MaskFormer: マスク予測を行うアプローチによるセグメンテーション

  • Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.3]
    マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。 マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。 提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 17:59:50 GMT)
    • セグメンテーションではピクセルを分類しグルーピングしていくアプローチと物体検出後にマスク領域を予測していくアプローチの2つがある。近年はピクセルベースのアプローチが良く用いられていたが、後者のアプローチを用いセマンティックセグメンテーション、パノプティックセグメンテーションで優れた性能を達成したとのこと。
    • https://bowenc0221.github.io/maskformer/からコード等を確認可能。

CMM(Configurable Multilingual Model): マルチリンガルな音声認識

  • A Configurable Multilingual Model is All You Need to Recognize All Languages [52.3]
    本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。 CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 06:52:41 GMT)
    • 言語指定可能なマルチリンガルな音声認識モデルを構築することで1言語のモデル及び通常のマルチリンガルモデルの性能を上回ったとの報告。
    • 認識対象の言語が分かっているほうが聞き取りやすい、多言語での訓練が単言語においても有効(人間が出せる音は言語が変わっても共通部分がある)というのは人間っぽいなという感想を抱いた。

コミットメッセージの自動生成

  • On the Evaluation of Commit Message Generation Models: An Experimental Study [33.2]
    コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。 コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。 本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 02:04:53 GMT)
    • コミットメッセージの自動生成に関する調査。データセット収集も実施、かつ、公開していて今後の研究に有用。話題のcopilotよりもかゆいところに手が届くツールのような気がする。
    • データセット・コード等はhttps://github.com/DeepSoftwareAnalytics/CommitMsgEmpiricalから参照可能。

SynLiDAR: synthetic LiDAR point cloud dataset

  • SynLiDAR: Learning From Synthetic LiDAR Sequential Point Cloud for Semantic Segmentation [37.0]
    SynLiDARは、正確な幾何学的形状と包括的なセマンティッククラスを備えた合成LiDARポイントクラウドデータセットである。 PCT-Netは、現実世界のポイントクラウドデータとのギャップを狭めることを目的としたポイントクラウド翻訳ネットワークである。 複数のデータ拡張および半教師付きセマンティックセグメンテーションタスクに対する実験は、非常に肯定的な結果を示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 12 Jul 2021 12:51:08 GMT)
    • LiDAR point cloudの大規模な合成データセット。仮想の都市や町、港から200k scans ( 19 billion points、32 semantic classes)を収集しているとのこと。合成データではあるが、転送学習を通して現実世界でも活用することが可能。この報告でも肯定的な結果とのこと。

S2ST(direct Speech-to-Speech Translation): 音声to音声の直接翻訳

  • Direct speech-to-speech translation with discrete units [64.2]
    本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声to音声翻訳(S2ST)モデルを提案する。 本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。 対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
    論文  参考訳(メタデータ)   (Mon, 12 Jul 2021 17:40:43 GMT)
    • 以前紹介したNiuTransと同様に直接的な音声翻訳の提案。Transformer型アーキテクチャ、self-supervised、マルチタスクを活用などこちらも様々なテクニックを活用している。(データがあれば)end to endでこの手のシステムが作れるかもしれないとは驚き。