自然言語処理 – ページ 4 – arXiv最新論文の紹介

SciNLI:科学に関連するテキストのNLI

SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.3]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。
論文参考訳（メタデータ） (Sun, 13 Mar 2022 18:23:37 GMT)
- NLP とcomputational linguisticsの論文から抽出された107KデータのNLIデータセット。通常のテキストより読解困難とのこと。
  - 理由が気になる・・・
- リポジトリはGitHub – msadat3/SciNLI: The dataset and code for ACL 2022 paper “SciNLI: A Corpus for Natural Language Inference on Scientific Text” will be released here.

REINA(REtrieving from the traINing datA): 学習データからの検索がモデル性能を改善

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data [82.9]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (Wed, 16 Mar 2022 17:37:27 GMT)
- 学習データを対象に検索的手法を用いることで性能が向上するとの報告（3ページの図が分かりやすい）。要約タスクでREINA+BART-baseがBART-largeに匹敵とのこと。非常にパラメータ数の多いモデルであっても学習データを完全に覚えることはできないので、リマインド的に検索結果をつなげると性能が向上するのでは？というのが面白い。
  - とはいえ（特に機械翻訳は）学習したドメインにover fittingしそうな予感がする。それはそれで使いどころはありそうではあるが。。。
- リポジトリはGitHub – microsoft/REINA

CodeReviewer: AIによるコードレビュー

CodeReviewer: Pre-Training for Automating Code Review Activities [36.4]
本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
論文参考訳（メタデータ） (Thu, 17 Mar 2022 05:40:13 GMT)
- コードレビューのため「Code Change Quality Estimation」「Code Review Generation」「Code Refinement 」という3つのタスクを提案、データセットを作成、モデル構築・評価を実施したとのこと。1つ1つが簡単ではないタスクのように思えるが、自動化できるととても有用そう。
- コードやデータは公開予定とのこと

競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI

コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。

DeepMindが競技プログラミングを解けるレベルの自動コード生成が可能なAlphaCodeを発表
- Competitive programming with AlphaCode | DeepMind
OpenAIは数学オリンピックの問題を解く（大幅に性能向上させた）AIを発表　
- Solving (Some) Formal Math Olympiad Problems (openai.com)

語彙モデルとTokenizeの歴史

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.8]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。すべてのアプリケーションに対して銀の弾丸が存在することはあり得ない。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 13:04:18 GMT)
- 自然言語処理の基礎となるTokenizeの歴史が書かれたサーベイ（？）結論は銀の弾丸はないので応用領域ごとに考えるべきというものだが、歴史が非常に参考になる。
- 特に日本語では自然言語処理には形態素解析が重要になることが多く、目的に応じて手法（アプローチ）が異なるのは納得感がある。

モデル説明の評価: 説明を用いてモデルのラベルを変更できるか？

Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.9]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (Fri, 17 Dec 2021 18:29:56 GMT)
- 偽のホテルレビューか否かを判定するモデルに対し説明手法を適用、そのモデルを騙す（ラベルを変化させる）事に資するかをもって説明手法を評価する研究。BERTに対する説明ではLIMEなど局所説明は役に立たず、BERTを模倣するよう構築された線形モデル（学生モデル）が効果的だったとのこと。
- コード等は公開予定とのことだが、現状では404

ViT-BERT: 言語と画像の統一的基礎モデル

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文参考訳（メタデータ） (Tue, 14 Dec 2021 00:20:55 GMT)
- 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

NL-Augmenter: 自然言語処理におけるデータ拡張フレームワーク

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation [92.0]
提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
論文参考訳（メタデータ） (Mon, 6 Dec 2021 00:37:59 GMT)
- 自然言語処理分野で使えるデータ拡張フレームワークの提案。オープンに手法を提案してもらい採用しているとのことで、使用可能な手法が多い。そのためか論文の共著者も多く所属機関も多様。
- リポジトリはGitHub – GEM-benchmark/NL-Augmenter: NL-Augmenter 🦎 → 🐍 A Collaborative Repository of Natural Language Transformations

T-NLRv5, SS-MoE, Gopher, GLaM: Microsoft, Google, DeepMindの巨大言語モデル

ここ最近は巨大言語モデルの話題が多かった。

12/3 Microsoft: Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE – Microsoft Research
- Microsoftチューリングモデル（T-NLRv5）が、SuperGLUEとGLUEでSoTAを報告。
- MNLI、RTEで初めて人間のスコアを超えたとのこと。

12/8 Google: SS-MoE（[2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (arxiv.org)ベース、Mixture-of-Expertで269B パラメータ）がSuperGLUEのSoTAを更新

12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- DeepMindが280Bパラメータの巨大言語モデルGopherを発表
- 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
- 他のモデルと比較可能な124タスク中100タスクでSoTA

12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
- Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
- 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia（高品質データ）で作成したフィルタを用いて高品質化。
- 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
  - NLG: Natural Language Generation / テキスト生成
  - NLU: Natural Language Understanding / テキスト理解
  - ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
- 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。

この先にAGIがあっても不思議ではない感覚がある。

ExT5: Extremeなマルチタスクでの事前学習モデル

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning [56.5]
本稿では,多様なドメインやタスクファミリにまたがる107個の教師付きNLPタスクの大規模なコレクションであるExMixを紹介する。 ExMixを用いて,これまでで最大規模のマルチタスク事前学習の効果を調べた。本稿では,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
論文参考訳（メタデータ） (Mon, 22 Nov 2021 02:34:46 GMT)
- C4と107個のNLPタスク（ExMix）を用いて構築したT5アーキテクチャの事前学習モデルExT5の提案。事前学習のおけるマルチタスクは下流タスクの性能向上に効果がある場合があり、ExT5はT5に比べ優れているとのこと。
  - SuperGLUEはSoTAに見えるがどうなんだろう？

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31