arXiv最新論文の紹介

句レベルの画像表現を用いたニューラル機械翻訳

Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (Sat, 19 Mar 2022 11:21:13 GMT)
- 文-画像のペアを用いた機械翻訳ではなくフレーズレベルでテキストと画像を紐づけることでデータの少なさとスパースさを改善したニューラル機械翻訳の提案。Multi30kなどで優れた性能を達成とのこと。
- リポジトリはGitHub – ictnlp/PLUVR: Code for ACL 2022 main conference paper “Neural Machine Translation with Phrase-Level Universal Visual Representations”.

StyleBabel: アートのタグとキャプション

StyleBabel: Artistic Style Tagging and Captioning [38.8]
StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
論文参考訳（メタデータ）参考訳（全文） (Fri, 11 Mar 2022 08:51:33 GMT)
- アート作品のキャプションやタグを集めたデータセットの提案。
- データ等はCC BY 4.0で公開予定とのことでAIによる創作のために有用なデータになりそう。

ToxiGen: 機械作成された13のグループに対するHate Speech検出（有毒/良性文）のデータセット

ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 17 Mar 2022 17:57:56 GMT)
- GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い（検出の難しい）文を生成とのこと。
- リポジトリはhttps://github.com/microsoft/ToxiGenとのことだが、今は404。

REINA(REtrieving from the traINing datA): 学習データからの検索がモデル性能を改善

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data [82.9]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (Wed, 16 Mar 2022 17:37:27 GMT)
- 学習データを対象に検索的手法を用いることで性能が向上するとの報告（3ページの図が分かりやすい）。要約タスクでREINA+BART-baseがBART-largeに匹敵とのこと。非常にパラメータ数の多いモデルであっても学習データを完全に覚えることはできないので、リマインド的に検索結果をつなげると性能が向上するのでは？というのが面白い。
  - とはいえ（特に機械翻訳は）学習したドメインにover fittingしそうな予感がする。それはそれで使いどころはありそうではあるが。。。
- リポジトリはGitHub – microsoft/REINA

CodeReviewer: AIによるコードレビュー

CodeReviewer: Pre-Training for Automating Code Review Activities [36.4]
本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
論文参考訳（メタデータ） (Thu, 17 Mar 2022 05:40:13 GMT)
- コードレビューのため「Code Change Quality Estimation」「Code Review Generation」「Code Refinement 」という3つのタスクを提案、データセットを作成、モデル構築・評価を実施したとのこと。1つ1つが簡単ではないタスクのように思えるが、自動化できるととても有用そう。
- コードやデータは公開予定とのこと

Delta Tuning: 事前学習モデルの効率的なチューニング

Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models [90.2]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文参考訳（メタデータ） (Mon, 14 Mar 2022 07:56:32 GMT)
- モデルのパラメータ全体を対象としないチューニング法（Delta Tuning）のサーベイとオープンソースのフレームワークの提案。
- リポジトリはGitHub – thunlp/OpenDelta: A plug-and-play library for parameter-efficient-tuning (Delta Tuning)

Lexiconを用いた事前学習モデルの拡張

Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation [133.7]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。 3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文参考訳（メタデータ）参考訳（全文） (Thu, 17 Mar 2022 16:48:22 GMT)
- リソースの少ない言語への自然言語処理適用に関する報告。世界に存在する約7000言語のうちmBERTは1%程度、Wikipedia/Common Crawlは4%程度しかカバーできていない（聖書でも23%）。この論文では70%をカバー可能なバイリンガル辞書や語彙集を用いて低リソースな言語の自然言語処理を行えるとのこと。
- リポジトリはGitHub – cindyxinyiwang/expand-via-lexicon-based-adaptation: Code for ACL 2022 paper “Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation”

Multi-hopや回答可能性を考慮したQuestion Generation

Question Generationを扱った論文が2日続けて出ていた。

Ask to Understand: Question Generation for Multi-hop Question Answering [11.6]
マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複数の文書から散乱した手がかりを見つけ、推論することで複雑な質問に答えることを要求する。質問生成(QG)の観点から,マルチホップQAを補完する新しい手法を提案する。
論文参考訳（メタデータ） (Thu, 17 Mar 2022 04:02:29 GMT)
- マルチホップなQAを作るための手法の提案。sub questionを介するパイプラインになっているようだが、Multi-hop Question Answering自体が挑戦的なタスクなのでうまくいくならすごいと思う。

A Feasibility Study of Answer-Unaware Question Generation for Education [14.4]
このようなシステムにおけるエラーのかなりの部分は、無関係または解釈不能な質問から生じていることを示す。これらのモデルが原文ではなく人文要約となると、生成した質問の受理性が著しく向上することがわかった。
論文参考訳（メタデータ）参考訳（全文） (Wed, 16 Mar 2022 15:16:18 GMT)
- 質問生成において不適切または解釈不能な質問を避けるため要約を活用するとの報告。
- リポジトリはGitHub – liamdugan/summary-qg: Code for the ACL 2022 Paper “A Feasibility Study of Answer-Unaware Question Generation for Education”

ELLE(Efficient Lifelong Pre-training for Emerging Data): 新たなデータの発生を考慮したPLM

ELLE: Efficient Lifelong Pre-training for Emerging Data [91.5]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。 ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文参考訳（メタデータ） (Sat, 12 Mar 2022 01:53:53 GMT)
- 特に言語モデルで問題となる新たなデータに対する継続的な学習（ここではLifelong learning）に関する論文。計算コスト等を下げる効率的な枠組みを提案。既存の言語モデルの幅や深さ（パラメータ数）を拡大する際に効率化が可能とのこと。
  - 新たなデータを獲得するたびにモデルサイズも拡張していく設定がリアル。。。
- リポジトリはGitHub – thunlp/ELLE

Chart-to-Text：グラフを自然言語で表現するためのデータセット

Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.6]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。データセット構築プロセスを説明し、データセットを解析する。
論文参考訳（メタデータ） (Sat, 12 Mar 2022 17:01:38 GMT)
- グラフの説明をするモデル構築のためのデータセットとベースラインの提案。比較を含むためテキスト生成の中でも難しいタスクのように感じる。
- リポジトリはGitHub – vis-nlp/Chart-to-textとのこと。（現状ではアップロードされていない）

2025年1月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31