2022年5月 – ページ 2 – arXiv最新論文の紹介

FactPEGASUS: 事実性を考慮した抽象型要約

FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization [91.5]
本稿では,FactPEGASUSについて述べる。FactPEGASUSは,事前学習と微調整における現実性の問題に対処する抽象的な要約モデルである。分析の結果,FactPEGASUSはゼロショットやスプリショットの設定において,本来の事前学習目標よりも現実的であることが示唆された。
論文参考訳（メタデータ） (Mon, 16 May 2022 17:39:14 GMT)
- 事前学習目標として事実性を考慮したfactGSGを用い、XSum、WikiHow、Gigawordデータセットでfactualityを改善。
- リポジトリはGitHub – meetdavidwan/factpegasus: PyTorch code for “FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization” (NAACL 2022)

Dataset Pruning

Dataset Pruning: Reducing Training Data by Examining Generalization Influence [30.3]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか? モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文参考訳（メタデータ） (Thu, 19 May 2022 05:36:35 GMT)
- 学習データ（のサブセットの削除）がネットワークパラメータに与える影響を理論的に検討、サンプル選択手順を制約付き離散最適化問題としてモデル化。実際のデータでその削減が与える影響と同じであることを検証したとのこと。

CREATER(CtR-drivEn Advertising TExt geneRation): 広告テキストの自動作成

CREATER: CTR-driven Advertising Text Generation with Controlled Pre-Training and Contrastive Fine-Tuning [14.9]
本稿では,CTRによる広告テキスト生成手法であるCREATERを提案し,高品質なユーザレビューに基づいて広告テキストを生成する。 CTRの目的を取り入れるために、我々のモデルはコントラスト学習を伴うオンラインA/Bテストデータから学習し、より高いCTRを得る広告テキストを生成することを奨励する。産業データセットの実験は、CREATERが現在のアプローチよりも大幅に優れていることを示している。
論文参考訳（メタデータ）参考訳（全文） (Wed, 18 May 2022 14:17:04 GMT)
- ユーザレビューデータを用いて事前学習後、A/Bテストを利用してContrastive Fine-Tuningし click-through rateの向上を実現とのこと。

質問のタイプを用いた質問生成

“What makes a question inquisitive?” A Study on Type-Controlled Inquisitive Question Generation [35.9]
質問生成のためのタイプ制御フレームワークを提案する。私たちは、ソーステキストから描画しながら、特定のタイプに固執する様々な質問を生成します。また、生成した集合から1つの質問を選択する戦略についても検討する。
論文参考訳（メタデータ） (Thu, 19 May 2022 12:33:35 GMT)
- Explanation, Elaboration など質問のタイプを考慮することでQA generationの性能が向上するとの報告。
- データ等はhttps://github.com/EducationalTestingService/inquisitive-questionsで公開予定とのことだが、現時点では404

XMOD(Cross-lingual Modular): 多言語モデルの転移性能の向上

Lifting the Curse of Multilinguality by Pre-training Modular Transformers [72.5]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文参考訳（メタデータ） (Thu, 12 May 2022 17:59:56 GMT)
- 事前学習時から言語固有のエリアを持っておくことにより、その後の多言語なfine tuningで高性能を達成
- リポジトリはfairseq/examples/xmod at main · facebookresearch/fairseq · GitHub

CoCoA-MT: フォーマルさを考慮した機械翻訳データセット

CoCoA-MT: A Dataset and Benchmark for Contrastive Controlled MT with Application to Formality [22.4]
敬語を扱う際には、特定の問題が生じる。間違った音や不整合音を使用するのは不適切とみなされることがある。ラベル付きコントラストデータを微調整することで,フォーマルさを制御するモデルが訓練できることを示す。
論文参考訳（メタデータ） (Mon, 9 May 2022 04:05:36 GMT)
- フォーマルさをコントロールする機械翻訳用データセット。日本が含まれている点が興味深い。
  - とても大事なタスクであると思う一方でそもそも違和感のある日本語文が存在する・・・本当に人間が訳したんやろうか・・・
- リポジトリはGitHub – amazon-research/contrastive-controlled-mt: Code and data for the IWSLT 2022 shared task on Formality Control for SLT

AIのSustainabilityに関するサーベイ

A Survey on AI Sustainability: Emerging Trends on Learning Algorithms and Research Challenges [35.3]
我々は、AIの持続可能性問題に対処できる機械学習アプローチの大きなトレンドについてレビューする。我々は、既存の研究の大きな限界を強調し、次世代の持続可能なAI技術を開発するための潜在的研究課題と方向性を提案する。
論文参考訳（メタデータ） (Sun, 8 May 2022 09:38:35 GMT)
- 環境を軸とした持続可能性（Computitaion-Efficient, Data-Efficient）、社会を軸とした持続可能性（Responsible, Rationalizable & Resilient）という2つの側面からAIの持続可能性を整理したサーベイ。興味深い整理軸。

小さなシードデータを用いたデータ構築

Few-shot Mining of Naturally Occurring Inputs and Outputs [83.4]
我々は,100個の小さなSeedセットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文参考訳（メタデータ）参考訳（全文） (Mon, 9 May 2022 05:40:52 GMT)
- 最初に小規模データを準備、その知識を用いて大規模コーパスから学習データを構築しようという報告。XSumとSQuADで有効性を確認とのこと。

AFK(Asking for Knowledge): 質問をする強化学習

Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文参考訳（メタデータ） (Thu, 12 May 2022 14:20:31 GMT)
- 外部知識にクエリーが可能な強化学習エージェントの提案。実行環境を作ったうえで有効性を確認している。
  - エージェントと環境を仲介するのが自然言語であるのが興味深い。
- プロジェクトサイトはAFK (ioujenliu.github.io)

Number Entity Recognition

Number Entity Recognition [65.8]
番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。通常、ほとんどのNLPタスクでは数値は明確に説明されていないが、NLPモデルで既に示されている数値は根底にある。本研究では,最先端nlpモデルの潜在能力を活用し,関連するタスクにおける性能向上能力の伝達を試みる。提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクやジョイント埋め込みを用いた質問応答,BERTとRoBERTaのベースライン分類よりも優れている。
論文参考訳（メタデータ） (Sat, 7 May 2022 05:22:43 GMT)
- 数字に対するNER。実用的には重要な技術で欲しい状況も多数経験している。
- データセットを公開するようだが現時点ではリンクがない（？）

2022年5月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31