2021年7月 – arXiv最新論文の紹介

XAI(Explainable AI)とユーザの関係

The Who in Explainable AI: How AI Background Shapes Perceptions of AI Explanations [14.3]
我々は、AIの背景と背景のない2つの異なるグループが、異なるタイプのAI説明を知覚する方法について、混合方法論による研究を行う。私たちは、信頼、知性、理解可能性、第二のチャンス、友好性の5つの側面に沿って、知覚が何であるかを定量的に共有します。
論文参考訳（メタデータ） (Wed, 28 Jul 2021 17:32:04 GMT)
- AIに関するバックグラウンドの有無によってAIの説明の受け止め方が異なるかを検証した論文。疑似的なロボットをRationale-Generating（自然言語で詳細な動作理由を出力、きちんとした内容、以下RG）、Action-Declaring （動作のみを記載、説明ではない、以下AD）、 Numerical-Reasoning（数値のみを出力、理由とは言えない、以下NR）の3つ設定、どれが好まれるかを検証。AIのバックグラウンドのある人は基本的にRGを好むが、そうでないグループでは常にRGが好まれるとは限らない。ADとRGの好みに差があるなどグループ間で差異が存在。また本来説明になっていないAD、NRに価値を見出すこともあったとのこと。
  - 「AI group seemed to have an instinctual response to numerical values; they assumed that the numbers possess all the information needed to manipulate, diagnose, and reverse engineer.」というのは非常に重要（で怖い）指摘。
  - 説明が正しく機能するかはXAIの重要な部分でhttps://arxiv.org/abs/2006.14779のような指摘にも関連している。色々な手法が開発されているもののXAIの実利用は発展途上という印象。前に書いた通り有用な技術であることは間違いなく、今後の発展が期待される。
- 本論も良いが前半のBACKGROUDの記載内容が非常に参考になる。
- 残念ながらFuguMTの訳がひどい。新verでは改善される予定。。。

MWP(Math word problem)とBERT

MWP-BERT: A Strong Baseline for Math Word Problems [47.5]
数学語問題( Math word problem、MWP)とは、自然言語による問題記述の列を、実行可能な数学方程式に変換するタスクである。近年, MWP の逐次モデル化は, 文脈理解の数学的側面から評価されているが, 事前学習言語モデル (PLM) はMWP の解法として研究されていない。我々はMWP-BERTを導入し、テキスト記述と数理論理の整合性を捉える事前訓練されたトークン表現を得る。
論文参考訳（メタデータ） (Wed, 28 Jul 2021 15:28:41 GMT)
- 事前学習言語モデルを用いたMWP（テキストの記述を方程式に変換するタスク）に関する報告。Math23Kで6%と大幅な改善を達成とのこと。

Question Answeringデータセットの調査

QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension [41.6]
我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在の隙間を強調します。また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
論文参考訳（メタデータ） (Tue, 27 Jul 2021 10:09:13 GMT)
- 引用数295という大規模なQAデータセットの調査結果。問題の構成、ドメイン、言語など様々な側面でデータセットを分類しており非常に参考になる。モノリンガルなリソースだと、日本語データセットは4番目（1位は英語、2位は中国語、3位はロシア語）に多いとのこと。

STR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルの融合

Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.4]
私たちは、2つの最先端のSTR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルと好適に競合できる単一のモデルを目指しています。まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文参考訳（メタデータ） (Mon, 26 Jul 2021 10:10:34 GMT)
- STRとHTRは似て非なるタスクであり、通常はモデルを相互利用できない（大幅な制度劣化が発生する）。蒸留の枠組みを用い通常のロス関数と4つのロス関数（Logits’ Distillation Loss, Character Localised Hint Loss, Attention Distillation Loss, Affinity Distillation Loss）を用いてSTRをHTR統合、生徒となるモデルを構築することで性能が向上するとのこと。

ICDAR 2021 SVTS(Scene Video Text Spotting)のコンペティション

ICDAR 2021 Competition on Scene Video Text Spotting [28.4]
シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
論文参考訳（メタデータ） (Mon, 26 Jul 2021 01:25:57 GMT)
- 動画像からテキストを認識（ビデオテキスト検出やテキストトラッキング）するコンペティションの結果報告。静的なOCRよりも格段に難しいタスク。
- 全24チームが参加したとのこと。上位チームのアプローチは参考になる。Task3 Tencentのチームのアプローチはてんこ盛り感があって凄い。

IERN(Interventional Emotion Recognition Network): データセットバイアスを軽減した感情認識

Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.7]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。 IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文参考訳（メタデータ） (Mon, 26 Jul 2021 10:40:59 GMT)
- 表情の変化に伴う画像の劣化（ブレやぼやけ）を感情を表す証拠と誤認識するバイアスを避けるため、因果推論のbackdoor adjustmentを実現する新しい介入感情認識ネットワークを提案。因果推論を利用する他のアプローチより優れていることを確認したとのこと。

ニューラル機械翻訳システムを中間に組み込んだNLUモデル

Modelling Latent Translations for Cross-Lingual Transfer [47.6]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文参考訳（メタデータ） (Fri, 23 Jul 2021 17:11:27 GMT)
- NLU （Natural Language Understanding）タスクを解く際にニューラル機械翻訳を組み込むことでマルチリンガル性を得るモデルの提案。この手のタスクでは（大規模事前学習を行った）マルチリンガルモデルの採用が多いが機械翻訳の組み込みは妥当で効果的な構造のように思える。実際、マルチリンガルなタスクにおけるzero-shot、few-shotの結果も良い。
- 論文中でMarianのJAに関する精度が著しく悪いのはHelsinki-NLP/Opus-MTの日本語関連のモデルのデータ量が足りていないためと思われる。（FuguMTを作った理由の一つでもある。）

To Ship or Not to ship: 機械翻訳の評価指標

To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [6.0]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUのみの使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文参考訳（メタデータ） (Thu, 22 Jul 2021 17:22:22 GMT)
- 機械翻訳モデルが複数あったときにどのモデルをリリースすべきかは悩ましい問題である（FuguMTでも最終的には目検を行った後にリリースモデルを決めている）。この論文では幅広い検証の結果、BLEUは使用すべきではなくCOMET（使用不可の言語の場合はChrF）の使用を推奨している。
- リポジトリはhttps://github.com/MicrosoftTranslator/ToShipOrNotToShipであり、今後詳細を公開予定とのこと。
- COMETのリポジトリはhttps://github.com/Unbabel/COMETにある。

COVID-19の感情データセット

When a crisis strikes: Emotion analysis and detection during COVID-19 [96.0]
感情をラベル付けした1万ツイートのCovidEmoを紹介します。事前学習された言語モデルがドメインや危機をまたいでどのように一般化するかを検討する。
論文参考訳（メタデータ） (Fri, 23 Jul 2021 04:07:14 GMT)
- COVID-19に関連したtweetをラベル付けしたデータセットCovidEmoの紹介と他のデータセットを用いた場合に転移が可能かを検証、有効でないがドメイン適合により改善可能としている。
- リポジトリはhttps://github.com/AlexanderTekle/COVIDEmotions

ニューラル機械翻訳における信頼性を考慮したScheduled sampling

Confidence-Aware Scheduled Sampling for Neural Machine Translation [25.4]
ニューラルマシン翻訳のための信頼度を考慮したスケジュールサンプリングを提案する。モデル予測の信頼性により,実時間モデル能力の定量化を行う。提案手法は,翻訳品質と収束速度の両方において,トランスフォーマーとバニラのスケジュールサンプリングを著しく上回っている。
論文参考訳（メタデータ） (Thu, 22 Jul 2021 02:49:04 GMT)
- 翻訳性能を向上させるスケジュールサンプリングの提案。バニラなTransformer(base / big)に比べて WMT14 EN-DE、EN-FR、WMT19 ZH-ENでそれぞれBLEUで1ポイント程度の改善を報告している。
- コードはhttps://github.com/Adaxry/conf_aware_ss4nmtから参照可能。

2021年7月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31