2021年12月 – ページ 3 – arXiv最新論文の紹介

NLPモデルの頑健性の評価、改善に関するサーベイ

Measure and Improve Robustness in NLP Models: A Survey [23.5]
堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 15 Dec 2021 18:02:04 GMT)
- 社会実装で重要な自然言語処理モデル頑健性について評価方法や、改善方法をまとめたサーベイ。本文は8ページと短めだが簡潔にまとまっておりベンチマークなども参考になる。

Textless Speech-to-Speech Translation

Textless Speech-to-Speech Translation on Real Data [49.1]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (Wed, 15 Dec 2021 18:56:35 GMT)
- FacebookAIがMetaAIになっていた。はおいておいて、S2ST（Speech-to-Speech Translation ）を使った論文。話者間で共通の語彙となるような音声正規化手法（self-supervised unit-based speech normalization process）を提案、テキストレスで機械翻訳を実現。思ったよりBLEUも高くて驚いた。
- コード等も公開予定とのこと。

人間とAIが関わる時の役割と情報伝達のあり方

Role of Human-AI Interaction in Selective Prediction [20.1]
我々は、AIシステムの遅延決定について、異なる種類の情報を人間に伝達する影響について研究する。我々は,AIの予測は明らかにせず,遅延する決定を人間に伝えることで,人間のパフォーマンスを大幅に向上させることが可能であることを示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 13 Dec 2021 16:03:13 GMT)
- 人間とAIがかかわりを持つとき、AIの予測結果を人間に伝えてしまうとそれがバイアスとなってしまい人間の判断を間違えさせる（全体の性能が低くなる）可能性がある。人間にAIの予測結果を伝えるのを遅らせる方が全体としての性能が良いという結果。

UniLog: ログ解析タスクを扱う統一モデル

UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks [11.4]
本研究では,マルチタスク学習手法としてログ解析を定式化し,様々なログ分析タスクを実行できる単一モデルを訓練することを提案する。この統合ログ分析手法をUniLogと呼ぶ。4つのログ分析タスクに関する7つのデータセットにわたる大規模な実験は、UniLogが顕著なパフォーマンスを達成することを示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 6 Dec 2021 16:49:33 GMT)
- ログ分析タスク（anomaly detection, failure prediction, log compression, log summarization）を統一的に扱える手法を提案、7つのデータセットでSoTAまたはそれに近い結果を達成とのこと。

ViT-BERT: 言語と画像の統一的基礎モデル

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文参考訳（メタデータ） (Tue, 14 Dec 2021 00:20:55 GMT)
- 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

A Framework for Fairness: Fair AIを実現するためのサーベイ

A Framework for Fairness: A Systematic Review of Existing Fair AI Solutions [4.6]
公正性の研究の大部分は、機械学習の実践者がアルゴリズムを設計しながらバイアスを監査するために使用できるツールの開発に費やされている。実際には、これらの公平性ソリューションの応用例が欠如している。このレビューでは、定義されたアルゴリズムバイアス問題と提案された公平問題解決方法の詳細な概要について述べる。
論文参考訳（メタデータ） (Fri, 10 Dec 2021 17:51:20 GMT)
- アルゴリズムバイアスとFairness awareなAIを構築するためのソリューションのサーベイ。

人間が学ぶためのAI

Making a Bird AI Expert Work for You and Me [46.6]
人間がAIから学ぶためのトランスファー可能な知識を構成するものは何か? 本稿では,知識を専門家排他的な高度に識別可能な視覚領域として表現することを提案する。 15,000件の治験を総合的に調査した結果, 飛散する鳥の専門知識を継続的に改善できることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Mon, 6 Dec 2021 02:47:21 GMT)
- 人間が学ぶことにフォーカスして重要部分をハイライトするAIを構築、CUB-Bird200を対象に実験をして有効性を確かめたとのこと。
- リポジトリはGitHub – PRIS-CV/Making-a-Bird-AI-Expert-Work-for-You-and-Me: Code release for “Making a Bird AI Expert Work for You and Me”.　（今はcoming soon）

FinRL-Meta: Deep reinforcement learning用の金融市場データ処理・シミュレーション環境

FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8]
FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。
論文参考訳（メタデータ） (Mon, 13 Dec 2021 16:03:37 GMT)
- 金融の深層強化学習での利用を想定した金融市場データのハンドリング・シミュレーション環境の提案。High-Frequency Tradingや暗号資産のトレード、株式ポートフォリオの設定など様々な用途に対応しているとのこと。
- リポジトリはGitHub – AI4Finance-Foundation/FinRL-Meta: FinRL-Meta: A Universe for Data-Driven Financial Reinforcement Learning. 🔥

HairCLIP: テキストによる髪の編集

HairCLIP: Design Your Hair by Text and Reference Image [100.9]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文参考訳（メタデータ） (Thu, 9 Dec 2021 18:59:58 GMT)
- テキスト入力をもとに髪型を編集可能なモデルの提案。サンプル画像が面白い。
- リポジトリはGitHub – wty-ustc/HairCLIP: HairCLIP: Design Your Hair by Text and Reference Image

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Dec 2021 13:21:26 GMT)
- 大規模なOpen World Video Textベンチマークデータセットの提案。
- リポジトリはGitHub – weijiawu/TransVTSpotter: A new video text spotting framework with Transformer

2021年12月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31