arXiv – ページ 200 – arXiv最新論文の紹介

NEWSKVQA: ニュースビデオに対するVQAデータセット

NEWSKVQA: Knowledge-Aware News Video Question Answering [5.7]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 17:31:31 GMT)
- ニュースビデオに対するVQA。12Kビデオクリップ、1M QAと非常に大規模なデータ。
- 論文中にデータセットへのリンク（Google Driveへのリンク）が存在

JaQuAD: 日本語のSQuADデータ

JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。 JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。 F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 18:40:25 GMT)
- 珍しい日本語のSQuADデータ、wikipediaデータがもとになっているよう。ライセンスはCC BY-SAと使いやすい。ぱっと見では高品質なデータのよう。
- リポジトリはGitHub – SkelterLabsInc/JaQuAD: JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)

DALL-Eval: 画像生成モデルを評価するデータセットと評価ツールキットPAINTSKILLS

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 18:36:52 GMT)
- DALL-Eのようなマルチモーダルな画像生成モデルに対する評価データセットでobject recognition, object counting, color recognition, spatial relation understandingの4つのスキルを評価対象としている。Social Biasに関する観点が入っているのが興味深い。
- リポジトリはGitHub – j-min/DallEval: DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers

Met Dataset: メトロポリタン美術館のデータセット

The Met Dataset: Instance-level Recognition for Artworks [19.4]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 18:13:30 GMT)
- メトロポリタン美術館がスタジオ等で撮影したデータとオンラインから集められたデータを用いたInstance-level recognitionのデータセット。規模が大きく題材も面白い。
- プロジェクトサイトはThe Met dataset (cvut.cz)、GitHub – nikosips/met: A large-scale dataset for instance-level recognition for artworks is introduced.

Retrieval-augmented text generationのサーベイ

A Survey on Retrieval-Augmented Text Generation [53.0]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文参考訳（メタデータ）参考訳（全文） (Wed, 2 Feb 2022 16:18:41 GMT)
- 検索を併用するテキスト生成に関するサーベイ
- サーベイとしては短め（がゆえに）簡潔にまとまっていて参考になる

Ad-datasets: 自動運転のデータセットまとめ

Ad-datasets: a meta-collection of data sets for autonomous driving [5.3]
ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 23:45:48 GMT)
- 自動運転に関連するデータセットを整理したサイト。ライセンス等の記載があるのもうれしいが、後半のデータについて概要等が欠けている気がする。。
- プロジェクトサイトはad Datasets (ad-datasets.com)

Explainable Machine Learningにおける不一致

The Disagreement Problem in Explainable Machine Learning: A Practitioner’s Perspective [13.7]
本稿では、説明可能な機械学習における不一致問題を紹介し、研究する。このような不一致が実際にどれだけ頻繁に起こるか、そして、実践者がこれらの不一致をどのように解決するかを分析する。以上の結果から, 現状説明法は, それらが出力する説明法と矛盾することが多いことが示唆された。
論文参考訳（メタデータ） (Fri, 4 Feb 2022 01:46:00 GMT)
- 説明手法間で説明が一致しないことが多く、その際にどう解決すべきかについて一貫した方針がないとの指摘。実践者への調査も行っている点が面白い。
- 実務的にも大きな問題となることがあり、何らかの手法だけに頼るのは危険だなと思う。結局のところ、いろいろな手法でチェック、多角的にテストするしかない。。

CoST: 時系列表現学習フレームワーク

CoST: Contrastive Learning of Disentangled Seasonal-Trend Representations for Time Series Forecasting [35.8]
我々はCoSTという新しい時系列表現学習フレームワークを提案する。コントラスト学習法を用いて季節差表現を学習する。実世界のデータセットの実験では、CoSTが最先端のメソッドを一貫して上回っていることが示されている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 13:17:38 GMT)
- 新たな時系列表現学習方法の提案。
- TS2Vec　GitHub – yuezhihan/ts2vec: A universal time series representation learning framework　を上回る性能とのこと。

WebFormer: WEBページからの情報抽出

WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (Tue, 1 Feb 2022 04:44:02 GMT)
- Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

ｍSLAM: multilingual Speech and LAnguage Model

mSLAM: Massively multilingual joint pre-training for speech and text [43.3]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 02:26:40 GMT)
- w2v-BERT＋SpanBERT+ Connectionist Temporal Classificationで音声とテキストを統一的に扱うモデルを事前学習。SLAM(Fugu-MT 論文翻訳(概要): SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training (fugumt.com))のmultilingual版
- 特に音声関連のタスクで能力が向上しているよう。

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30