CodeQA: プログラムコードに対するQuestion Answering

  • CodeQA: A Question Answering Dataset for Source Code Comprehension [82.6]
    コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 06:06:38 GMT)
    • ソースコードに対するQuestion Answeringを行うためのデータセット。コメント文などから生成しているそうだが、他にあまり見ない問題設定のよう思う。
    • リポジトリはhttps://github.com/jadecxliu/CodeQA

BiT(Bidirectional Training): 機械翻訳用のシンプルな双方向事前学習

  • Improving Neural Machine Translation by Bidirectional Training [85.6]
    我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。 具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。 実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Sep 2021 07:58:33 GMT)
    • 「src→target」という構成を「src + target → target + src」に変更して事前学習を行う(BiT)だけで翻訳性能が向上するとの報告。事前学習結果は言語対が逆になっても(例えばEn→De、De→En双方で)使用可能とのこと。データ数に関わらずBLEUで1ポイント以上の効果があるデータセットもあって有用そう。

ニューラル機械翻訳におけるScaling Law、クロスエントロピーと翻訳の質

  • Scaling Laws for Neural Machine Translation [21.8]
    モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。 また,クロスエントロピー損失と翻訳の質との関係についても検討した。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 06:15:20 GMT)
    • ニューラル機械翻訳におけるモデルサイズとモデル品質の関係を検証した論文。エンコーダとデコーダに着目した場合はそれなりにうまくいく式が導出できたとのこと(逆に言うとモデル内パラメータ総数との関係は十分に明らかとは言えない)。それによって最適なサイズを決められる。
      • デコーダの層数よりもエンコーダの層数を多くした方が良いのでは?という議論が裏付けられている。
    • Target言語→Src言語でテストセットを作った場合はモデルサイズの増加がlossとBLEU双方が改善され、逆の場合はlossが改善する一方でBLEUの改善は頭打ちになる。
      • 機械翻訳の多様性の欠如を示しているのでは。とのこと。(同時にBack Translationが一定程度有効という裏付けでもある。)
    • WEBからのクロールデータで機械翻訳モデルを作る際、WEBデータに機械翻訳によるテキストが多数入っている事の問題も指摘している。特にリソースの少ない言語ではすでに問題になっているとの指摘。
      • FuguMTではある程度はフィルタリングしている。テキストの類似性を見るようなアプローチは効果が薄く、URLや原文の構成単語に頼る方がよかったりするので簡単ではないとの印象。
      • 機械翻訳を行っているサイトにつけるフラグとかあったら知りたい。

RobustART: 画像処理理の頑健性に関するベンチマーク/API

  • RobustART: Benchmarking Robustness on Architecture Design and Training Techniques [170.3]
    ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。 本稿では,ImageNet上での包括性調査ベンチマークを提案する。
    論文  参考訳(メタデータ)   (Wed, 15 Sep 2021 08:15:57 GMT)
    • ImageNetをベースにした頑健性に関するベンチマーク/APIの提案。成果自体も有用だと思うが、最新のものを含む既存アーキテクチャやテクニックを幅広く分析しており非常に参考になる内容。
    • 広範な分析を行った結果「①TransformerとMLP-MixerではAdversarial Trainingで扱っているノイズ(natural, system, adversarial noise)に対する頑健性、精度が向上する。」「②同程度のサイズであればnatural noiseとsystem noiseに対してはCNN > Transformer > MLP-Mixerの順で頑健、adversarial noiseに対してはTransformer > MLP-Mixer > CNNの順に頑健」「③ほぼすべてのモデルについてモデルサイズの増加でよりロバストになる。ただし、軽量化を狙ったアーキテクチャ(EfficientNetやMobileNetV2/V3)の一部はロバスト性が向上しない」がわかったとのこと。
      • CNNとTransformerの比較結果は局所的な特徴量に強いCNNと大域を見れるTransformerの差異によるものだろうか。モデルサイズが大きくなるとよりロバストになるというのは過去にも指摘されていたが、軽量モデルではそれが当てはまらないというのも中身を詳細に分析したくなる。大規模の比較なのでほかにもモデル間の差異がありそうで面白い。
    • プロジェクトサイトはhttp://robust.art/

MDAPT(Multilingual Domain Adaptive PreTraining): 多言語ドメイン固有モデルの有効性

  • MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
    一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。 本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 11:50:26 GMT)
    • 金融やバイオなどあるドメイン固有の処理を行う多言語モデルを構築する場合、多言語ドメイン固有な事前学習(アダプト)を行うことが有効とした論文。様々なパターンで性能比較が行われており参考になる。(各言語のモデルを構築せずとも)固有ドメイン・多言語の統一モデルに意義があるとされているのが興味深い。
    • リポジトリはhttps://github.com/RasmusKaer/mDAPT_supplementshttps://github.com/mahartmann/mdapt

STraTA(Self-Training with Task Augmentation): タスク拡張による自己学習

  • STraTA: Self-Training with Task Augmentation for Better Few-shot Learning [77.0]
    タスク拡張による自己学習のためのSTraTAを提案する。 実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。 分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。
    論文  参考訳(メタデータ)   (Mon, 13 Sep 2021 19:14:01 GMT)
    • まずはNatural Language Inference モデルを構築し大量の合成データを作成(Task augmentation)、ラベル付きデータと疑似的なラベル付きデータを用いて反復的にモデルを構築・改善する(Self-Training)方針。各イテレーションはTask Augmentaionによる補助モデルから始め、広い分布の疑似ラベルデータを使用するとのこと。
      • Task augmentaionのベースはT5-3Bとのこと。
    • SST-2で「ラベル付きデータがクラスごとに8つのSTraTA」が67Kサンプルのfine tuningに匹敵とのことで素晴らしい効果。Few-shotの設定(前述のクラスごとに8サンプル)だとprompt-baseなアプローチやEntailmentタスクに持ち込むアプローチに対しても勝率が高い。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/strata(現状はまだ404)

言語モデルのデトックス

  • Challenges in Detoxifying Language Models [44.5]
    大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。 安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。 我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
    論文  参考訳(メタデータ)   (Wed, 15 Sep 2021 17:27:06 GMT)
    • 大規模言語モデルから攻撃的なテキストなど問題のある部分を除く無毒化の研究報告。毒性スコアを効果的に減少させる手法は存在するが、そもそも何を問題のあるテキストとみなすか?という問いが未解決であるとの指摘は重い。また、毒性スコアを下げる対応によって社会的バイアスの増加(疎外されているグループに対する精度劣化)が起きる可能性があることは注意すべき事項であると思う。

GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA

  • Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
    視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。 その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 17:52:55 GMT)
    • 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
      • 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。

xGQA: 7言語の Visual Question Answering

  • xGQA: Cross-Lingual Visual Question Answering [100.4]
    xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。 確立された英語GQAデータセットを7言語に拡張する。 本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
    論文  参考訳(メタデータ)   (Mon, 13 Sep 2021 15:58:21 GMT)
    •  7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
    • リポジトリはhttps://github.com/Adapter-Hub/xGQA

SituatedQA:回答のために言語外の文脈が必要なQAデータセット

  • SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.5]
    SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。 質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。 我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 13 Sep 2021 17:53:21 GMT)
    • 回答のために言語外の文脈が必要なQAデータセットの提案。時間的or地理的を表すContext Typeとそれに対応したContext Valueによって答えが変化する。直感的にも予想できる通り、Leaderboardからは人間とモデルの差が大きい解くのが難しい問題のように見える。
    • プロジェクトサイトはhttps://situatedqa.github.io/