2021年8月 – arXiv最新論文の紹介

AutoML vs 人間によるモデル構築

Man versus Machine: AutoML and Human Experts’ Role in Phishing Detection [4.1]
本稿では,10種類のフィッシングデータセット上での6つの最先端AutoMLフレームワークのパフォーマンスを比較した。以上の結果から,AutoMLベースのモデルでは,複雑な分類タスクにおいて,手作業で開発した機械学習モデルよりも優れていることが示唆された。
論文参考訳（メタデータ） (Fri, 27 Aug 2021 09:26:20 GMT)
- AutoMLと手作業で作成したモデルを比較、AutoMLの方が優れていた…という報告。なのだが、手作業のモデルはAutoMLと同じデータ（1 Tableのデータ）でscikit-learnの手法（Logistic Regression, SVM, KNN, Decision Tree, Random Forest, Multi-layer Perceptron, Gaussian Naive Bayes）+手作業でハイパーパラメータをランダムサーチでチューニングしただけ。比較方法がイマイチな気がする。
- 手作業というからには特徴量作成部分がキーになるはずだし、比較対象にはLightGBMやXGB辺りは入れるべきと思う。複数テーブルのデータに対してドメイン知識に基づいて特徴量作れば挙げられたAutoMLには負けないのではないかと思う。
  - 複数テーブルを扱えるAutoMLの実装は多くなくこれはこれでフェアじゃないかもだが。（放置しているけど）筆者が作っているFuguMLは複数テーブルを扱える実装になっていて未だにテーブル結合に対応した実装が少ないのは謎。
- 色々言いたいことはあるが、AutoMLの実装によって精度に意外な差があるのが面白い。ドメイン知識を持つ専門家がパイプラインのループに不可欠であるという指摘はその通りだと思う。

機械学習における再現性の確保ガイド

A Guide to Reproducible Research in Signal Processing and Machine Learning [9.7]
2016年にNature誌が行った調査によると、研究者の50%が自身の実験を再現できなかった。我々は,再現可能な計算実験を生成する上での障害の多くを軽減するための,実用的なツールと戦略のセットを,信号処理研究者に提供することを目的とする。
論文参考訳（メタデータ） (Fri, 27 Aug 2021 16:42:32 GMT)
- 再現性を確保するためのガイド。データとコードだけあれば再現できる、、、わけではなく正しいやり方で正しいツールを使うことを推奨している。書かれているのは「最低限やるべきこと」というイメージでもっと流行りのアプローチもあるような気がするが、重要な指摘であることには違いない。

AVATAR (jAVA-pyThon progrAm tRanslation): Java/Pythonのパラレルコーパス

AVATAR: A Parallel Corpus for Java-Python Program Translation [37.0]
我々は8,475のプログラミング問題とその解決策をJavaとPythonという2つの人気のある言語で記述したコーパスを提示する。我々は、スクラッチからトレーニングされたモデルや大規模なソースコードコレクションで事前訓練されたモデルを含む、いくつかのベースラインを提示する。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 05:44:20 GMT)
- JAVA/Pythonのパラレルコーパスを収集、このデータを用いて言語間変換を行うという論文。構文やデータフローを正確に変換するのは簡単ではないとのこと。
  - 構文が厳格なプログラミング言語とそうでない自然言語のどちらの変換が容易かは謎で興味深い。
- リポジトリはhttps://github.com/wasiahmad/AVATAR

BID(Blind Image Decomposition)タスクのベンチマーク

Blind Image Decomposition [53.8]
本稿では,Blind Image Decomposition (BID)について述べる。雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
論文参考訳（メタデータ） (Wed, 25 Aug 2021 17:37:19 GMT)
- 雨や靄など重ねあった画像を分離するタスクの提案。プロジェクトサイトの画像が分かりやすい。この論文では「Mixed image decomposition across multiple domains（ドメインの異なる画像を混ぜたものからの分解）」「Real-scenario deraining（CityScapeデータセットの画像に雨や水滴、雪のマスクを適用したものを分解）」「Joint shadow/reﬂection/watermark removal（SRD、ISTDをベースとしてreflectionを適用、watermark部分はLVW）」と3つのタスクを提案、BIDeNというベースラインを構築している。
- プロジェクトサイトはhttps://junlinhan.github.io/projects/BID.html、リポジトリはhttps://github.com/JunlinHan/BID

ReadingBankとLayoutReader: 読む順番を検出するためのデータセットとモデル

LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 05:52:32 GMT)
- 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ（LayoutReader）でヒューリスティックな方法を大きく上回る性能を出したとのこと。
- ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
  - FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

自動Fact-Checkingのサーベイ

A Survey on Automated Fact-Checking [18.3]
本稿では,自然言語処理によるファクトチェックの自動化について検討し,関連する課題や規律との関係について考察する。既存のデータセットとモデルを概観し、与えられた様々な定義を統一し、共通の概念を識別することを目的としている。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 16:34:51 GMT)
- ファクトチェックに関する要素を分析、関連するデータセットを一覧化、モデル構築のアプローチを整理している。この分野の歴史を振り返るうえで優れた資料。Research Challenges のところは自然言語処理一般に言える難しさも多い。
- 本文は12ページとサーベイにしては短め。

PMT(Product-oriented Machine Translation): 製品指向の機械翻訳

Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training [47.2]
製品指向機械翻訳(PMT)は、世界中のeショップ向けに必要不可欠である。ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。本稿では,Fashion-MMTと呼ばれる大規模バイリンガル製品記述データセットを最初に構築する。製品指向のクロスモーダル言語モデル(upoc2)を事前学習と微調整のために設計する。
論文参考訳（メタデータ） (Wed, 25 Aug 2021 08:36:01 GMT)
- 製品説明のような状況では画像を用いてクロスモーダルな機械翻訳を行うことが重要とした論文。Unified Product-Oriented Cross-modal Cross-lingual model (UPOC2) を提案。
- マルチモーダル性を利用した翻訳が広まっていくと面白いと思う。個人的には顔画像の感情分析を併用したようなモデルを作ってみたいと思ったり思わなかったり。
- リポジトリはhttps://github.com/syuqings/Fashion-MMT

GNNをトリック込みで評価するベンチマーク

Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive Benchmark Study [100.3]
ディープグラフニューラルネットワーク(GNN)のトレーニングは、非常に難しい。我々は、深層GNNの「トリック」を評価するための最初の公正かつ再現可能なベンチマークを示す。
論文参考訳（メタデータ） (Tue, 24 Aug 2021 05:00:37 GMT)
- deep graph neural networksのトレーニングは難しく、skip connections、graph normalization、random droppingなど様々なテクニックが用いられている。それらを込みで評価するベンチマークを提案。
- リポジトリはhttps://github.com/VITA-Group/Deep_GCN_Benchmarking

マルチリンガルモデルの効果、RemBERTがHugging Faceに

Are the Multilingual Models Better? Improving Czech Sentiment with Transformers [1.5]
チェコ語における極性検出の課題を3つの感情極性データセットを用いて検討する。我々は5つの多言語モデルと3つの単言語モデルを用いて微調整および実験を行う。 3つのデータセットすべてに対して、最先端の新たな結果が得られます。
論文参考訳（メタデータ） (Tue, 24 Aug 2021 10:50:01 GMT)
- チェコ語のセンチメント分析においてXLM-R-Largeがモノリンガルモデルを上回る性能を出したとの報告。マルチリンガルモデルの有効性を示していて、言語資源が少ない日本語にも参考になる結果のように思える。

性能の良い事前学習済みマルチリンガルモデルモデルであるRemBERTがHuggngfaceに取り込まれており、このようなモデルの利用も広まっていくのだと思う。いまのところ日本語はT5などBERT以降の構造＆モノリンガル大規模事前学習モデルで公開されているものが存在する。とはいえ、データセットの規模等を考えると海外研究機関のマルチリンガルモデルより上の性能を出し続けられるかは難しい気がしなくもない。
FuguMTのためにクロールしたデータセットでバイリンガル版T5とか作ろうかと思わなくもないがコスト的につらいなーと思う最近。

マルチモーダル・マルチラベル学習を用いた違法薬物密売の検出

Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach [18.2]
Instagram上では、違法薬物密売事件(IDTE)の詳細な検出に関する最初の系統的研究を行っている。具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。
論文参考訳（メタデータ） (Mon, 23 Aug 2021 02:13:56 GMT)
- マルチモーダルなモデルを用いた違法薬物の検出。単一情報のみの場合は画像よりもテキストによる検出が優れていたが、画像情報を加えテキスト＋画像で検知することで能力が大幅に向上したとのこと。
- 直感的にもマルチモーダルに適した実用的な問題のように思える。

2021年8月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31