2023年4月25日 – arXiv最新論文の紹介

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.6]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 09:38:59 GMT)
Crosslingualな要約タスク、mBARTの成績が良い（LLM系は検証対象とされていない？）
リポジトリはGitHub – DhavalTaunk08/XWikiGen: Codebase for the paper XWikiGen

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。我々はMultimodal C4 (mmc4) をリリースした。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 06:17:46 GMT)
非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.