ERNIE-Layout

  • ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
    レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。 まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。 実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 12:59:24 GMT)

DigiFace-1M

  • DigiFace-1M: 1 Million Digital Face Images for Face Recognition [25.3]
    最先端の顔認識モデルは、Wildデータセットのラベル付き顔に対して99.8%以上の精度で達成されている。 コンピュータグラフィックスパイプラインを用いてデジタル顔の描画によって得られた顔認識のための大規模合成データセットを提案する。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 22:02:48 GMT)
    • 顔認識モデル構築のための合成データセット。プライバシー上の問題がないのが利点でSynFace より高性能なモデル構築が可能とのこと。
      • 特にこのような分野だと主データはSynthetic dataという設定が有効そう
    • リポジトリはmicrosoft/DigiFace1M (github.com)

Can Pretrained Language Models (Yet) Reason Deductively? 

  • Can Pretrained Language Models (Yet) Reason Deductively? [72.9]
    PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。 本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。 PLMは人間レベルの推論能力からは程遠いことがわかりました。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:44:15 GMT)
    • Pretrained Language Modelを詳細にテスト、演繹的な推論はできていないとの報告。言い換えや否定的な表現への変更などの変更に苦しんでいることが分かる。

Automatic Chain of Thought

What’s in a Decade? Transforming Faces Through Tim

  • What’s in a Decade? Transforming Faces Through Time [70.8]
    私たちは1880年代から現在までの10年ごとに1000枚以上の肖像画を含むFaces Through Timeデータセットを組み立てています。 われわれは、ある10年間に撮影された肖像画が、他の数十年で撮影されたものである場合、どのように見えるのかを想像しながら、時間をかけて肖像画を再合成する枠組みを提示する。
    論文  参考訳(メタデータ)   (Thu, 13 Oct 2022 00:48:18 GMT)
    • 年代ごとの顔写真のデータセットを作成、過去にとられた写真っぽく変換するフレームワークを提案。単純にセピア調になっているのではなく髪型やメイクも影響を受けており非常に面白い。
    • リポジトリはFaces Through Time

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models

An Empirical Study on Finding Spans

  • An Empirical Study on Finding Spans [31.4]
    エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに着目する。 タスク特性を考慮せずに、すべての下流タスクをうまく解決できる銀の弾丸がないことを認識します。
    論文  参考訳(メタデータ)   (Thu, 13 Oct 2022 08:15:48 GMT)
    • Named Entity Recognition (NER)、Event Extraction (EE)、Relation Extraction (RE)、Coreference Resolution (CR)といったスパンを発見するタスク(典型的には下記)に関するサーベイ
    • 当然かもだが銀の弾丸はない「we found that there is not a single recipe that is best for all scenarios」とのこと

SpaceQA

  • SpaceQA: Answering Questions about the Design of Space Missions and Space Craft Concepts [57.0]
    宇宙ミッション設計における最初のオープンドメインQAシステムであるSpaceQAについて述べる。 SpaceQAは、欧州宇宙機関(ESA)による、宇宙ミッションの設計に関する情報のアクセス、共有、再利用を容易にするイニシアチブの一部である。
    論文  参考訳(メタデータ)   (Fri, 7 Oct 2022 09:41:39 GMT)
    • 試行運用に入っているQAエンジンとのこと。一般的な部品をうまく組み合わせているように見える。
    • リポジトリはexpertailab/SpaceQA (github.com)

CLIP also Understands Text

  • CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.6]
    Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。 本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
    論文  参考訳(メタデータ)   (Tue, 11 Oct 2022 23:35:18 GMT)
    • 自然言語と画像を結びつけるように使用されることが多い印象のCLIPが純粋なテキスト処理でもBERTなどを超える能力を持っているとの報告。モデルサイズが小さいにも関わらず良好な結果を出せているのが興味深い。
      • 画像とのペアでの学習が理解を助けるというのはめっちゃ人間っぽいし何となく納得感もあるが、詳細な理由が知りたいところ

Foundation Transformers

  • Foundation Transformers [105.1]
    我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。 本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:16:27 GMT)
    • MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
    • プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)