arXiv – ページ 203 – arXiv最新論文の紹介

Ad-datasets: 自動運転のデータセットまとめ

Ad-datasets: a meta-collection of data sets for autonomous driving [5.3]
ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 23:45:48 GMT)
- 自動運転に関連するデータセットを整理したサイト。ライセンス等の記載があるのもうれしいが、後半のデータについて概要等が欠けている気がする。。
- プロジェクトサイトはad Datasets (ad-datasets.com)

Explainable Machine Learningにおける不一致

The Disagreement Problem in Explainable Machine Learning: A Practitioner’s Perspective [13.7]
本稿では、説明可能な機械学習における不一致問題を紹介し、研究する。このような不一致が実際にどれだけ頻繁に起こるか、そして、実践者がこれらの不一致をどのように解決するかを分析する。以上の結果から, 現状説明法は, それらが出力する説明法と矛盾することが多いことが示唆された。
論文参考訳（メタデータ） (Fri, 4 Feb 2022 01:46:00 GMT)
- 説明手法間で説明が一致しないことが多く、その際にどう解決すべきかについて一貫した方針がないとの指摘。実践者への調査も行っている点が面白い。
- 実務的にも大きな問題となることがあり、何らかの手法だけに頼るのは危険だなと思う。結局のところ、いろいろな手法でチェック、多角的にテストするしかない。。

CoST: 時系列表現学習フレームワーク

CoST: Contrastive Learning of Disentangled Seasonal-Trend Representations for Time Series Forecasting [35.8]
我々はCoSTという新しい時系列表現学習フレームワークを提案する。コントラスト学習法を用いて季節差表現を学習する。実世界のデータセットの実験では、CoSTが最先端のメソッドを一貫して上回っていることが示されている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 13:17:38 GMT)
- 新たな時系列表現学習方法の提案。
- TS2Vec　GitHub – yuezhihan/ts2vec: A universal time series representation learning framework　を上回る性能とのこと。

WebFormer: WEBページからの情報抽出

WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (Tue, 1 Feb 2022 04:44:02 GMT)
- Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

ｍSLAM: multilingual Speech and LAnguage Model

mSLAM: Massively multilingual joint pre-training for speech and text [43.3]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 02:26:40 GMT)
- w2v-BERT＋SpanBERT+ Connectionist Temporal Classificationで音声とテキストを統一的に扱うモデルを事前学習。SLAM(Fugu-MT 論文翻訳(概要): SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training (fugumt.com))のmultilingual版
- 特に音声関連のタスクで能力が向上しているよう。

機械学習モデルはバイアスを増幅するか？

A Systematic Study of Bias Amplification [16.2]
近年の研究では、機械学習モデルによる予測は、トレーニングデータに存在するバイアスを増幅することができることが示唆されている。我々は、バイアス増幅の発生時期と発生状況について、初めて体系的に制御された研究を行う。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 18:04:24 GMT)
- 機械学習モデルを用いることでバイアス（偏見）が増幅してしまうのではないか？ということを検証した論文。（解釈は悩ましいが）結果として状況によってはバイアス増幅が起きるとしている。
  - 論文でも触れられているが、バイアス増幅を避ける事で他のメトリクスが悪化することはあり、難しい問題。結局は論文の締めの通り「careful design of the entire pipeline from data collection to model deployment」に尽きる。

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL

A Dataset for Medical Instructional Video Classification and Question Answering [16.7]
本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 30 Jan 2022 18:06:31 GMT)
- ビデオに対するQuestion Answeringと分類用データセット。医療ドメインのものは珍しいと思う。
- リポジトリはGitHub – deepaknlp/MedVidQACL: Implementation of the Benchmark Approaches for Medical Instructional Video Classification (MedVidCL) and Medical Video Question Answering (MedVidQA)

COIN++(COmpression with Implicit Neural representations): DNNを用いた圧縮

COIN++: Data Agnostic Neural Compression [55.3]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文参考訳（メタデータ） (Sun, 30 Jan 2022 20:12:04 GMT)
- 圧縮へのニューラルネットワークの応用。JPEG2000等と比べても優れた性能

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 18:53:22 GMT)
- 画像＋言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念（翻訳モデル開発者としてはうれしいが、未来感がない）
- プロジェクトサイトはHome | IGLUE (iglue-benchmark.github.io)

VRT(Video Restoration Transformer)

VRT: A Video Restoration Transformer [126.8]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文参考訳（メタデータ） (Fri, 28 Jan 2022 17:54:43 GMT)
- ビデオの超解像技術にTrasnsformerを用いる研究。super-resolution、 deblurring、denoisingで優れた性能を達成とのこと。
- プロジェクトサイトはGitHub – JingyunLiang/VRT: VRT: A Video Restoration Transformer

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30