難易度を考慮した機械翻訳の評価

  • Difficulty-Aware Machine Translation Evaluation [20.0]
    本稿では,新しい難易度対応機械翻訳評価指標を提案する。 ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。 提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 02:45:36 GMT)
    • BERTScore をベースに翻訳の難しさ(複数翻訳モデルの一致の悪さ)を考慮したDifficulty-Aware BERTScoreを定義、評価指標として有効に動作することを検証した論文。よく用いられるBLEUは翻訳の品質評価において良好な結果を示さないことが分かっており、自動評価指標の開発は重要である。品質評価において難易度の考慮は自然な発想であり、本論文の難易度の定義も違和感がない。良さそうな指標だと思う。
    • ソースコード等はhttps://github.com/NLP2CT/Difficulty-Aware-MT-Evaluationで公開されている。

メールスレッドの抽象型要約

  • EmailSum: Abstractive Email Thread Summarization [105.5]
    我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。 このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。 本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 15:13:14 GMT)
  • メールスレッド要約のためのデータセットと様々なモデルの評価結果を報告した論文。Extractiveな要約手法、Abstractiveな要約手法の代表的なものに加え、ラベル無しデータを用いるSemi-supervisedな手法も試している。結果的にT5が良好な結果をしめしたとのこと(Semi-supervisedな手法が勝っている評価指標もある)
  • リポジトリはhttps://github.com/ZhangShiyue/EmailSum

MASA(ML API Shift Assessments): API Shiftの検知

  • Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.3]
    機械学習(ML)予測APIはますます広く使われている。 モデル更新や再トレーニングのために、時間とともに変更することも可能だ。 MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。MASAは、ランダムサンプリングよりも90%少ないサンプルを用いて、商用ML APIの混同行列シフトを正確に推定することができる。
    論文  参考訳(メタデータ)   (Thu, 29 Jul 2021 17:41:53 GMT)
    • 「さまざまなデータセット上で、Google、Microsoft、Amazonなどから人気のML APIの2020年から2021年までのパフォーマンスシフトを定量化します。 調査対象36例中12例に有意なモデルシフトを認めた。 興味深いことに、APIの予測が時間とともに大幅に悪化するいくつかのデータセットを見つけました。」とのこと。API利用時のテストは初期には実施することが多いと思うが、その後のAPI更新時にも「性能がアップするだけ」と単純に考えてはいけないよう。継続的な検証のためには大事な技術である。

プロンプトに関するサーベイ

  • Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing [78.9]
    本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。 入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
    論文  参考訳(メタデータ)   (Wed, 28 Jul 2021 18:09:46 GMT)
    • GPT-2、GPT-3などで有名になり、Few-shotで重要なプロンプトに関するサーベイ。プロンプトの位置づけや概要から始まり、モデル、テクニック、応用など幅広い内容で非常に良い資料。TABLE 12 Timeline of prompt-based learningで2021.07.15 の FLEXまでカバーしているのも凄い。

XAI(Explainable AI)とユーザの関係

  • The Who in Explainable AI: How AI Background Shapes Perceptions of AI Explanations [14.3]
    我々は、AIの背景と背景のない2つの異なるグループが、異なるタイプのAI説明を知覚する方法について、混合方法論による研究を行う。 私たちは、信頼、知性、理解可能性、第二のチャンス、友好性の5つの側面に沿って、知覚が何であるかを定量的に共有します。
    論文  参考訳(メタデータ)   (Wed, 28 Jul 2021 17:32:04 GMT)
    • AIに関するバックグラウンドの有無によってAIの説明の受け止め方が異なるかを検証した論文。疑似的なロボットをRationale-Generating(自然言語で詳細な動作理由を出力、きちんとした内容、以下RG)、Action-Declaring (動作のみを記載、説明ではない、以下AD)、 Numerical-Reasoning(数値のみを出力、理由とは言えない、以下NR)の3つ設定、どれが好まれるかを検証。AIのバックグラウンドのある人は基本的にRGを好むが、そうでないグループでは常にRGが好まれるとは限らない。ADとRGの好みに差があるなどグループ間で差異が存在。また本来説明になっていないAD、NRに価値を見出すこともあったとのこと。
      • 「AI group seemed to have an instinctual response to numerical values; they assumed that the numbers possess all the information needed to manipulate, diagnose, and reverse engineer.」というのは非常に重要(で怖い)指摘。
      • 説明が正しく機能するかはXAIの重要な部分でhttps://arxiv.org/abs/2006.14779のような指摘にも関連している。色々な手法が開発されているもののXAIの実利用は発展途上という印象。前に書いた通り有用な技術であることは間違いなく、今後の発展が期待される。
    • 本論も良いが前半のBACKGROUDの記載内容が非常に参考になる。
    • 残念ながらFuguMTの訳がひどい。新verでは改善される予定。。。

MWP(Math word problem)とBERT

  • MWP-BERT: A Strong Baseline for Math Word Problems [47.5]
    数学語問題( Math word problem、MWP)とは、自然言語による問題記述の列を、実行可能な数学方程式に変換するタスクである。 近年, MWP の逐次モデル化は, 文脈理解の数学的側面から評価されているが, 事前学習言語モデル (PLM) はMWP の解法として研究されていない。 我々はMWP-BERTを導入し、テキスト記述と数理論理の整合性を捉える事前訓練されたトークン表現を得る。
    論文  参考訳(メタデータ)   (Wed, 28 Jul 2021 15:28:41 GMT)
    • 事前学習言語モデルを用いたMWP(テキストの記述を方程式に変換するタスク)に関する報告。Math23Kで6%と大幅な改善を達成とのこと。

Question Answeringデータセットの調査

  • QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension [41.6]
    我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在の隙間を強調します。 また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
    論文  参考訳(メタデータ)   (Tue, 27 Jul 2021 10:09:13 GMT)
    • 引用数295という大規模なQAデータセットの調査結果。問題の構成、ドメイン、言語など様々な側面でデータセットを分類しており非常に参考になる。モノリンガルなリソースだと、日本語データセットは4番目(1位は英語、2位は中国語、3位はロシア語)に多いとのこと。

STR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルの融合

  • Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.4]
    私たちは、2つの最先端のSTR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルと好適に競合できる単一のモデルを目指しています。 まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。 次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 10:10:34 GMT)
    • STRとHTRは似て非なるタスクであり、通常はモデルを相互利用できない(大幅な制度劣化が発生する)。蒸留の枠組みを用い通常のロス関数と4つのロス関数(Logits’ Distillation Loss, Character Localised Hint Loss, Attention Distillation Loss, Affinity Distillation Loss)を用いてSTRをHTR統合、生徒となるモデルを構築することで性能が向上するとのこと。

ICDAR 2021 SVTS(Scene Video Text Spotting)のコンペティション

  • ICDAR 2021 Competition on Scene Video Text Spotting [28.4]
    シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。 本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 01:25:57 GMT)
    • 動画像からテキストを認識(ビデオテキスト検出やテキストトラッキング)するコンペティションの結果報告。静的なOCRよりも格段に難しいタスク。
    • 全24チームが参加したとのこと。上位チームのアプローチは参考になる。Task3 Tencentのチームのアプローチはてんこ盛り感があって凄い。

IERN(Interventional Emotion Recognition Network): データセットバイアスを軽減した感情認識

  • Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.7]
    本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。 IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 10:40:59 GMT)
    • 表情の変化に伴う画像の劣化(ブレやぼやけ)を感情を表す証拠と誤認識するバイアスを避けるため、因果推論のbackdoor adjustmentを実現する新しい介入感情認識ネットワークを提案。因果推論を利用する他のアプローチより優れていることを確認したとのこと。