arXiv – ページ 194 – arXiv最新論文の紹介

IAM: 議論マイニングのための包括的な大規模なデータセット

IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks [59.5]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Mar 2022 03:27:52 GMT)
- 議論マイニングのため、 Claim Extraction with Stance Classiﬁcation (CESC) と Claim-Evidence Pair Extraction (CEPE)タスクを設定、データセットを作成、ベースラインを提供
  - IAM = Integrated Argument Mining　？
- リポジトリはGitHub – LiyingCheng95/IAM

小さなデータで効率的に学習するためのDataset distillation

Dataset Distillation by Matching Training Trajectories [75.9]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (Tue, 22 Mar 2022 17:58:59 GMT)
- 多くの画像を用いて効率的に学習可能な合成データを作成する研究。
  - Deep Learning的には効率的に学習可能でもやや不気味な画像ではある・・・
- リポジトリはDataset Distillation by Matching Training Trajectories (georgecazenavette.github.io)、データセットの提供もされている

WuDaoMM: 大規模な画像・テキストのマルチモーダルデータセット

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文参考訳（メタデータ）参考訳（全文） (Tue, 22 Mar 2022 06:12:20 GMT)
- テキスト・画像の大規模データセット。研究目的にのみ利用可能。
- プロジェクトサイトはresource (wudaoai.cn)

Make-A-Scene: 制御可能なテキストtoイメージ生成

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
論文参考訳（メタデータ） (Thu, 24 Mar 2022 15:44:50 GMT)
- テキストからの画像生成時にセグメンテーション情報を与えることで生成される結果を制御可能なモデルの提案。どのようなものかはThe Little Red Boat Story (Make-A-Scene) – YouTubeの2:40以降を見るのが分かりやすい。

ポッドキャスト書き起こしの要約

Towards Abstractive Grounded Summarization of Podcast Transcripts [33.3]
ポッドキャストの書き起こしの要約は、コンテンツ提供者と消費者の両方にとって実用的な利益である。これは、コンシューマーがポッドキャストを聴くかどうかを素早く判断し、要約を書くためのコンテンツプロバイダの負荷を減らすのに役立つ。しかし、ポッドキャストの要約は、入力に関する事実上の矛盾を含む重大な課題に直面している。
論文参考訳（メタデータ） (Tue, 22 Mar 2022 02:44:39 GMT)
- ポッドキャストの要約に関する研究。ソースとターゲット（要約）の長さに乖離が大きく難しい問題で、ソースをどのようにセグメンテーションするかが重要とのこと。
  - 人間による評価は高いものの、機械評価はベースラインに負けている気がするが。。。（そもそも正解である要約品質が高くないという記載もあり、それはそれでよいとは思う）
- リポジトリはGitHub – tencent-ailab/GrndPodcastSum: (ACL 2022) The source code for the paper “Towards Abstractive Grounded Summarization of Podcast Transcripts”

XTREME-S: クロスリンガルな音声表現ベンチマーク

XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 21 Mar 2022 06:50:21 GMT)
- speech recognition、speech classiﬁcation、speech translation、speech retrievalのタスクに対する多言語データセット
- Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

SciNLI:科学に関連するテキストのNLI

SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.3]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。
論文参考訳（メタデータ） (Sun, 13 Mar 2022 18:23:37 GMT)
- NLP とcomputational linguisticsの論文から抽出された107KデータのNLIデータセット。通常のテキストより読解困難とのこと。
  - 理由が気になる・・・
- リポジトリはGitHub – msadat3/SciNLI: The dataset and code for ACL 2022 paper “SciNLI: A Corpus for Natural Language Inference on Scientific Text” will be released here.

文書を並び替えてのMulti-Document News Summarization

Read Top News First: A Document Reordering Approach for Multi-Document News Summarization [27.3]
本稿では,文書を連結・要約する前に,文書の相対的重要性に応じて並べ替える簡単な手法を提案する。並べ替えにより、要約モデルで学習しやすくなる。
論文参考訳（メタデータ） (Sat, 19 Mar 2022 06:01:11 GMT)
- 複数の文書を要約するタスクにおいて、要約モデル適用前に適切な順番に並び替えることで性能が向上するとの報告。
- リポジトリはhttps://github.com/zhaochaocs/MDS-DRとのこと。（現時点では404）

句レベルの画像表現を用いたニューラル機械翻訳

Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (Sat, 19 Mar 2022 11:21:13 GMT)
- 文-画像のペアを用いた機械翻訳ではなくフレーズレベルでテキストと画像を紐づけることでデータの少なさとスパースさを改善したニューラル機械翻訳の提案。Multi30kなどで優れた性能を達成とのこと。
- リポジトリはGitHub – ictnlp/PLUVR: Code for ACL 2022 main conference paper “Neural Machine Translation with Phrase-Level Universal Visual Representations”.

StyleBabel: アートのタグとキャプション

StyleBabel: Artistic Style Tagging and Captioning [38.8]
StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
論文参考訳（メタデータ）参考訳（全文） (Fri, 11 Mar 2022 08:51:33 GMT)
- アート作品のキャプションやタグを集めたデータセットの提案。
- データ等はCC BY 4.0で公開予定とのことでAIによる創作のために有用なデータになりそう。

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30