2022年3月 – ページ 4 – arXiv最新論文の紹介

LaPraDoR(Large-scale Pretrained Dense Zero-shot Retriever): Zero-shotなText Retrieval

LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.1]
我々は、最近提案されたBEIRベンチマークで、9つのゼロショットテキスト検索タスクの18のデータセットを含むLaPraDoRを評価する。実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能を達成した。
論文参考訳（メタデータ） (Fri, 11 Mar 2022 18:53:12 GMT)
- ゼロショットなtext retrievalモデル、BEIRでSoTAとのこと。
  - 略称は無理やり感がすごい。そしてこの手の話題では毎回BM25って優秀だなー思う。
- リポジトリはGitHub – JetRunner/LaPraDoR: 🦮 Code and pretrained models for Findings of ACL 2022 paper “LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval”

フェイクニュース検知のためのフェイクニュース生成

Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation [105.2]
本稿では,人間が書いたフェイクニュースに近い記事を生成するための新しいフレームワークを提案する。そして、私たちはプロパガンダのテクニックを、人間が偽ニュースを作る方法を模倣するために生成した記事に明示的に組み入れます。 PropaNewsでトレーニングされた検出器は、最先端のアプローチによって生成されたデータに基づいてトレーニングされた検出器よりも、人間の書き起こした偽情報を検出する精度が7.3%から12.0%高いことを示す。
論文参考訳（メタデータ）参考訳（全文） (Thu, 10 Mar 2022 14:24:19 GMT)
- Fake Newsを自動生成して検出器の性能を上げるという報告。人が書いたフェイクニュースのテクニックとして「主張の大半が本物（虚偽の主張は極一部）」のようなものが挙げられている。アプローチも「重要な文を特定」→「文脈に合わせて虚偽の文に置き換え」→「プロパガンダの記載」と良くも悪くも納得感がある。
- データセット等は公開予定とのこと。

Kubric：データセットジェネレータ

Kubric: A scalable dataset generator [73.8]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 7 Mar 2022 18:13:59 GMT)
- PyBulletとBlenderをベースにして合成データを作成可能なフレームワーク。スケーラビリティも高いとのこと。とても便利そう。
- リポジトリはGitHub – google-research/kubric: A data generation pipeline for creating semi-realistic synthetic multi-object videos with rich annotations such as instance segmentation masks, depth maps, and optical flow.

ProbES(Prompt-based Environmental Selfexploration): VLNを対象としたデータ合成

Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [84.0]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (Tue, 8 Mar 2022 11:01:24 GMT)
最近よく見かける事前学習モデルからデータを作るという方針をVLNに適用した報告。画像と自然言語の紐づけにはCLIPを使用とのこと。
リポジトリはGitHub – liangcici/Probes-VLN

自然言語生成における忠実性の問題に関するサーベイ

Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods [48.5]
自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。しかし、生成したテキストが通常不信または非実情報を含むという忠実性問題は、最大の課題となっている。
論文参考訳（メタデータ） (Thu, 10 Mar 2022 08:28:32 GMT)
- NLGを行う上で「ﬂuency （流暢か）」「informativeness （有用なものか）」「controllability （制御できるか）」「faithfulness （入力に忠実か）」などが課題となる。テンプレート方式ではfaithfulnessを満たしやすいが近年の言語モデルを用いたNLGではこれを満たすことは簡単ではない。このサーベイではfaithfulnessに注目して評価や最適化手法をまとめている。NLG一般のサーベイとしても有用な印象。

LUV(Labels from UltraViolet): 紫外線を用いたラベリング

All You Need is LUV: Unsupervised Collection of Labeled Images using Invisible UV Fluorescent Indicators [36.5]
Labels from UltraViolet (LUV)は、人間のラベル付けなしで実際の操作環境で高速にラベル付けされたデータ収集を可能にする新しいフレームワークである。 LUVは透明な紫外線塗料とプログラマブルな紫外線LEDを使って、標準的な照明でシーンのペア画像を集めている。 LUVは、未塗布試験画像上の人間のアノテーションと整合したラベルを提供する。
論文参考訳（メタデータ） (Wed, 9 Mar 2022 08:03:07 GMT)
- 通常のアノテーションは「可視光で撮影した画像」を見ながら人がラベリングやセグメンテーションを実施する。そのプロセスは大変なので、認識対象に紫外線蛍光塗料を塗り「②紫外線LEDを使って撮影した画像」を使えばアノテーション相当の結果が得られるという報告。All You Needかは疑問だがデータを作りに行ける場合は有効な方法だと思う。
  - シミュレーション環境でデータを作る手法もよくつかわれるがリアルな環境でうまくやるアイデアはなるほどと思う。
- プロジェクトサイトはAll You Need is LUV (google.com)

DUAL(Discrete Unit Adaptive Learning): TextlessなSQA(Spoken Question Answering)

DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文参考訳（メタデータ） (Wed, 9 Mar 2022 17:46:22 GMT)
- Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
- ASRを併用するアプローチと競合的な結果で（当たり前ではあるが）ASR品質によっては提案手法が優れていることがあるとのこと。
- リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA

機械学習を用いたシステムのcode smell

Code Smells in Machine Learning Systems [27.8]
本研究は,ディープラーニングソフトウェアシステムにおけるコードの臭いに関する最初の研究である。 DLシステムにおいて,保守関連変更の9つの頻度で検出された。新たに同定されたコードの臭いが、開発者の視点でDLシステムのメンテナンスに広く影響していることがわかりました。
論文参考訳（メタデータ）参考訳（全文） (Wed, 2 Mar 2022 00:39:00 GMT)
- 機械学習、特にDeep Learningを用いたソフトウェアに対するcode smell（ヤバそうなコード）の分析。
  - 「Scattered Use of ML Library: サードパーティーのライブラリやフレームワークを非凝縮的に使用、当該ライブラリが更新されたときに変更が多発」など身につまされる内容・・・

MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成

Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 21:09:13 GMT)
- テキスト情報、画像、セグメンテーション情報などマルチモーダルな情報を活用したビデオ合成。プロジェクトサイトの動画を見るとよくできていてびっくりする。
- プロジェクトサイトはShow Me What and Tell Me How: Video Synthesis via Multimodal Conditioning (snap-research.github.io)、リポジトリはGitHub – snap-research/MMVID: [CVPR 2022] Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning

UDAAN :機械学習支援のポストエディットツール

UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 11:08:16 GMT)
- あまり見かけないオープンソースのポストエディットツール。論文やツール紹介は英語/ヒンディー語が対象だがツールは言語とは独立とのこと。
- リポジトリはGitHub – ayushbits/udaan-post-editing

2022年3月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31