2022年10月 – ページ 2 – arXiv最新論文の紹介

Simple and Effective Unsupervised Speech Translation

Simple and Effective Unsupervised Speech Translation [68.3]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。事前学習された音声モデルに対する教師なし領域適応手法を提案する。実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文参考訳（メタデータ） (Tue, 18 Oct 2022 22:26:13 GMT)
unsupervised なspeech-to-text translation (S2TT)とspeech-to-speech translation (S2ST)構築方法の提案。既存の知見をゴリゴリ使うアプローチで界隈の状況を知る上でも非常に参考になる。

Imagic: Text-Based Real Image Editing with Diffusion Models

Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。実際のイメージで動作し、追加の入力を必要としない。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 17:27:32 GMT)
- 画像＋指示で画像編集ができる手法提案。「鳥の画像」＋「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。

Transcending Scaling Laws with 0.1% Extra Compute

Transcending Scaling Laws with 0.1% Extra Compute [128.1]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 16:46:41 GMT)
- 0.1 %と少ない計算量を使用するUL2Rで性能が大幅に向上するとの論文
  - 論文中の表記だとUL2: Uniﬁed language learner Restore ? R: Restore?
  - UL2 20B: An Open Source Unified Language Learner – Google AI Blog (googleblog.com)でdenoiserを混合するアプローチ
  - Fugu-MT 論文翻訳(概要): Unifying Language Learning Paradigms (fugumt.com)
- 処理を行ったU-PaLMは、英語のNLPタスク(例えば、常識推論、質問応答)、連鎖思考(eg、GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなどでfew-shot PaLMよりも優れているとのこと。

Scaling Instruction-Finetuned Language Models

Scaling Instruction-Finetuned Language Models [126.5]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 16:58:32 GMT)
- 1,836のタスクでfine tuning（instruction finetuning）することで様々なタスクに対する性能が向上したとする論文。PaLMに対してinstruction fine tuningを行ったFlan-PaLM 540BはもともとのPaLMを大幅に性能改善し、five-shot MMLUでSoTA。使用するタスクサイズが増えるほど性能向上傾向がみられるが、282タスクで概ね頭打ちになっている
  - それ以上増やしても新たな知識を提供していないのでは？もしくは言語モデル内の知識を表現するために一定以上のタスクは役に立たないのでは？との指摘があるが、新たな知識・情報を提供するための条件にめっちゃ興味がある。
- 下記にFlan-T5のチェックポイントが公開されている。PaLM 62Bよりfew-shot性能が優れているとのこと。
  - t5x/models.md at main · google-research/t5x (github.com)

Equal Improvability

Equal Improvability: A New Fairness Notion Considering the Long-term Impact [27.7]
EI(Equal Improvability)と呼ばれる新しい公正性の概念を提案する。 EIは、異なるグループ間で拒絶されたサンプルの潜在的受容率を等しくする。提案したEI正規化アルゴリズムは、EIの観点から公平な分類器を見つけることを奨励することを示す。
論文参考訳（メタデータ） (Thu, 13 Oct 2022 04:59:28 GMT)
- 時間とともに何かを改善できる場合を考慮した公平性の指標を提案。例えば「ローンを承認するかどうかにおいて、今後クレジットスコアなどを改善できる場合」を考慮する。
  - とても面白い論文であり、アルゴリズム・実験結果ともに公開されているので現実的な設定で使えそうなのかは検証してみたいなと思う
- リポジトリはguldoganozgur/ei_fairness (github.com)

Deep Clusteringのサーベイ

Deep Clustering: A Comprehensive Survey [53.4]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文参考訳（メタデータ） (Sun, 9 Oct 2022 02:31:32 GMT)
- Deep系のクラスタリング手法のサーベイ。

Extreme Multi-label Learningのサーベイ

A Survey on Extreme Multi-label Learning [72.9]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。 eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文参考訳（メタデータ） (Sat, 8 Oct 2022 08:31:34 GMT)
- ラベル空間が極めて大きい設定、eXtreme Multi-label Learning (XML)のサーベイ

ERNIE-Layout

ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 12:59:24 GMT)
- ERNIEシリーズのDocument Understanding、画像に関する特徴も処理しDocFormerやLayoutLMv2を超える優れた性能を実現している。
- デモはERNIE-Layout – a Hugging Face Space by PaddlePaddleと思われる

DigiFace-1M

DigiFace-1M: 1 Million Digital Face Images for Face Recognition [25.3]
最先端の顔認識モデルは、Wildデータセットのラベル付き顔に対して99.8%以上の精度で達成されている。コンピュータグラフィックスパイプラインを用いてデジタル顔の描画によって得られた顔認識のための大規模合成データセットを提案する。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 22:02:48 GMT)
- 顔認識モデル構築のための合成データセット。プライバシー上の問題がないのが利点でSynFace より高性能なモデル構築が可能とのこと。
  - 特にこのような分野だと主データはSynthetic dataという設定が有効そう
- リポジトリはmicrosoft/DigiFace1M (github.com)

Can Pretrained Language Models (Yet) Reason Deductively?

Can Pretrained Language Models (Yet) Reason Deductively? [72.9]
PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。 PLMは人間レベルの推論能力からは程遠いことがわかりました。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 17:44:15 GMT)
- Pretrained Language Modelを詳細にテスト、演繹的な推論はできていないとの報告。言い換えや否定的な表現への変更などの変更に苦しんでいることが分かる。

2022年10月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31