arXiv – ページ 196 – arXiv最新論文の紹介

自然言語生成における忠実性の問題に関するサーベイ

Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods [48.5]
自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。しかし、生成したテキストが通常不信または非実情報を含むという忠実性問題は、最大の課題となっている。
論文参考訳（メタデータ） (Thu, 10 Mar 2022 08:28:32 GMT)
- NLGを行う上で「ﬂuency （流暢か）」「informativeness （有用なものか）」「controllability （制御できるか）」「faithfulness （入力に忠実か）」などが課題となる。テンプレート方式ではfaithfulnessを満たしやすいが近年の言語モデルを用いたNLGではこれを満たすことは簡単ではない。このサーベイではfaithfulnessに注目して評価や最適化手法をまとめている。NLG一般のサーベイとしても有用な印象。

LUV(Labels from UltraViolet): 紫外線を用いたラベリング

All You Need is LUV: Unsupervised Collection of Labeled Images using Invisible UV Fluorescent Indicators [36.5]
Labels from UltraViolet (LUV)は、人間のラベル付けなしで実際の操作環境で高速にラベル付けされたデータ収集を可能にする新しいフレームワークである。 LUVは透明な紫外線塗料とプログラマブルな紫外線LEDを使って、標準的な照明でシーンのペア画像を集めている。 LUVは、未塗布試験画像上の人間のアノテーションと整合したラベルを提供する。
論文参考訳（メタデータ） (Wed, 9 Mar 2022 08:03:07 GMT)
- 通常のアノテーションは「可視光で撮影した画像」を見ながら人がラベリングやセグメンテーションを実施する。そのプロセスは大変なので、認識対象に紫外線蛍光塗料を塗り「②紫外線LEDを使って撮影した画像」を使えばアノテーション相当の結果が得られるという報告。All You Needかは疑問だがデータを作りに行ける場合は有効な方法だと思う。
  - シミュレーション環境でデータを作る手法もよくつかわれるがリアルな環境でうまくやるアイデアはなるほどと思う。
- プロジェクトサイトはAll You Need is LUV (google.com)

DUAL(Discrete Unit Adaptive Learning): TextlessなSQA(Spoken Question Answering)

DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文参考訳（メタデータ） (Wed, 9 Mar 2022 17:46:22 GMT)
- Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
- ASRを併用するアプローチと競合的な結果で（当たり前ではあるが）ASR品質によっては提案手法が優れていることがあるとのこと。
- リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA

機械学習を用いたシステムのcode smell

Code Smells in Machine Learning Systems [27.8]
本研究は,ディープラーニングソフトウェアシステムにおけるコードの臭いに関する最初の研究である。 DLシステムにおいて,保守関連変更の9つの頻度で検出された。新たに同定されたコードの臭いが、開発者の視点でDLシステムのメンテナンスに広く影響していることがわかりました。
論文参考訳（メタデータ）参考訳（全文） (Wed, 2 Mar 2022 00:39:00 GMT)
- 機械学習、特にDeep Learningを用いたソフトウェアに対するcode smell（ヤバそうなコード）の分析。
  - 「Scattered Use of ML Library: サードパーティーのライブラリやフレームワークを非凝縮的に使用、当該ライブラリが更新されたときに変更が多発」など身につまされる内容・・・

MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成

Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 21:09:13 GMT)
- テキスト情報、画像、セグメンテーション情報などマルチモーダルな情報を活用したビデオ合成。プロジェクトサイトの動画を見るとよくできていてびっくりする。
- プロジェクトサイトはShow Me What and Tell Me How: Video Synthesis via Multimodal Conditioning (snap-research.github.io)、リポジトリはGitHub – snap-research/MMVID: [CVPR 2022] Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning

UDAAN :機械学習支援のポストエディットツール

UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 11:08:16 GMT)
- あまり見かけないオープンソースのポストエディットツール。論文やツール紹介は英語/ヒンディー語が対象だがツールは言語とは独立とのこと。
- リポジトリはGitHub – ayushbits/udaan-post-editing

Audio Self-supervised Learningのサーベイ

Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 15:58:29 GMT)
- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声＋Visionのようなマルチモーダルな手法もサーベイ対象となっている。

DiT(Document Image Transformer): Transformer + MIMな事前学習による文書構造認識

DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
自己教師付き文書画像変換モデルであるDiTを提案する。さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 15:34:46 GMT)
- Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classiﬁcation、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。
- リポジトリはunilm/dit at master · microsoft/unilm · GitHub

Vision-Language Intelligenceのサーベイ

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 18:54:59 GMT)
- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。

PeerSum: ピアレビューを用いたMulti-document summarizationデータセット

PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization [37.5]
PeerSumは、科学出版物のピアレビューを用いた新しいMDSデータセットである。現在のMDSモデルは、PeerSumの高品質な要約を生成するのに苦労しています。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Mar 2022 15:27:02 GMT)
- ICLRとNeurIPSのレビューデータをスクレイピング、メタレビュー部分を高品質な抽象型要約用データとして使えるとの指摘。レビュー→メタレビューという問題設定はそもそも実用上重要で面白い。
- リポジトリはGitHub – oaimli/PeerSum: PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization、現状ではアップされていない。

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30