staka – ページ 219 – arXiv最新論文の紹介

Extreme Multi-label Learningのサーベイ

A Survey on Extreme Multi-label Learning [72.9]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。 eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文参考訳（メタデータ） (Sat, 8 Oct 2022 08:31:34 GMT)
- ラベル空間が極めて大きい設定、eXtreme Multi-label Learning (XML)のサーベイ

ERNIE-Layout

ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 12:59:24 GMT)
- ERNIEシリーズのDocument Understanding、画像に関する特徴も処理しDocFormerやLayoutLMv2を超える優れた性能を実現している。
- デモはERNIE-Layout – a Hugging Face Space by PaddlePaddleと思われる

DigiFace-1M

DigiFace-1M: 1 Million Digital Face Images for Face Recognition [25.3]
最先端の顔認識モデルは、Wildデータセットのラベル付き顔に対して99.8%以上の精度で達成されている。コンピュータグラフィックスパイプラインを用いてデジタル顔の描画によって得られた顔認識のための大規模合成データセットを提案する。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 22:02:48 GMT)
- 顔認識モデル構築のための合成データセット。プライバシー上の問題がないのが利点でSynFace より高性能なモデル構築が可能とのこと。
  - 特にこのような分野だと主データはSynthetic dataという設定が有効そう
- リポジトリはmicrosoft/DigiFace1M (github.com)

Can Pretrained Language Models (Yet) Reason Deductively?

Can Pretrained Language Models (Yet) Reason Deductively? [72.9]
PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。 PLMは人間レベルの推論能力からは程遠いことがわかりました。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 17:44:15 GMT)
- Pretrained Language Modelを詳細にテスト、演繹的な推論はできていないとの報告。言い換えや否定的な表現への変更などの変更に苦しんでいることが分かる。

Automatic Chain of Thought

Automatic Chain of Thought Prompting in Large Language Models [20.5]
大規模言語モデル(LLM)は中間的推論ステップを生成することで複雑な推論を行うことができる。「ステップ・バイ・ステップ」は、デモのための推論チェーンを1つずつ生成します。自動CoTプロンプト法を提案する。
論文参考訳（メタデータ） (Fri, 7 Oct 2022 12:28:21 GMT)
- Chain of Thoughtの自動化、マニュアルの対応に比べても優れた性能を達成。
- リポジトリはamazon-research/auto-cot: Official implementation for “Automatic Chain of Thought Prompting in Large Language Models” (stay tuned & more will be updated) (github.com)

What’s in a Decade? Transforming Faces Through Tim

What’s in a Decade? Transforming Faces Through Time [70.8]
私たちは1880年代から現在までの10年ごとに1000枚以上の肖像画を含むFaces Through Timeデータセットを組み立てています。われわれは、ある10年間に撮影された肖像画が、他の数十年で撮影されたものである場合、どのように見えるのかを想像しながら、時間をかけて肖像画を再合成する枠組みを提示する。
論文参考訳（メタデータ） (Thu, 13 Oct 2022 00:48:18 GMT)
- 年代ごとの顔写真のデータセットを作成、過去にとられた写真っぽく変換するフレームワークを提案。単純にセピア調になっているのではなく髪型やメイクも影響を受けており非常に面白い。
- リポジトリはFaces Through Time

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.9]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。 PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。最近の研究では、高密度PLMは、性能を損なうことなくスパースサブネットに置き換えることができることが示されている。
論文参考訳（メタデータ） (Tue, 11 Oct 2022 07:26:34 GMT)
- BERTを対象として、データセットバイアスに対してスパースかつロバストなサブネットワークが存在するとの報告。
- リポジトリはllyx97/sparse-and-robust-PLM: [NeurIPS 2022] “A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models”, Yuanxin Liu, Fandong Meng, Zheng Lin, Jiangnan Li, Peng Fu, Yanan Cao, Weiping Wang, Jie Zhou (github.com)

An Empirical Study on Finding Spans

An Empirical Study on Finding Spans [31.4]
エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに着目する。タスク特性を考慮せずに、すべての下流タスクをうまく解決できる銀の弾丸がないことを認識します。
論文参考訳（メタデータ） (Thu, 13 Oct 2022 08:15:48 GMT)
- Named Entity Recognition (NER)、Event Extraction (EE)、Relation Extraction (RE)、Coreference Resolution (CR)といったスパンを発見するタスク（典型的には下記）に関するサーベイ
- 当然かもだが銀の弾丸はない「we found that there is not a single recipe that is best for all scenarios」とのこと

SpaceQA

SpaceQA: Answering Questions about the Design of Space Missions and Space Craft Concepts [57.0]
宇宙ミッション設計における最初のオープンドメインQAシステムであるSpaceQAについて述べる。 SpaceQAは、欧州宇宙機関(ESA)による、宇宙ミッションの設計に関する情報のアクセス、共有、再利用を容易にするイニシアチブの一部である。
論文参考訳（メタデータ） (Fri, 7 Oct 2022 09:41:39 GMT)
- 試行運用に入っているQAエンジンとのこと。一般的な部品をうまく組み合わせているように見える。
- リポジトリはexpertailab/SpaceQA (github.com)

CLIP also Understands Text

CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.6]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (Tue, 11 Oct 2022 23:35:18 GMT)
- 自然言語と画像を結びつけるように使用されることが多い印象のCLIPが純粋なテキスト処理でもBERTなどを超える能力を持っているとの報告。モデルサイズが小さいにも関わらず良好な結果を出せているのが興味深い。
  - 画像とのペアでの学習が理解を助けるというのはめっちゃ人間っぽいし何となく納得感もあるが、詳細な理由が知りたいところ

2025年12月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31