Automatic Chain of Thought

What’s in a Decade? Transforming Faces Through Tim

  • What’s in a Decade? Transforming Faces Through Time [70.8]
    私たちは1880年代から現在までの10年ごとに1000枚以上の肖像画を含むFaces Through Timeデータセットを組み立てています。 われわれは、ある10年間に撮影された肖像画が、他の数十年で撮影されたものである場合、どのように見えるのかを想像しながら、時間をかけて肖像画を再合成する枠組みを提示する。
    論文  参考訳(メタデータ)   (Thu, 13 Oct 2022 00:48:18 GMT)
    • 年代ごとの顔写真のデータセットを作成、過去にとられた写真っぽく変換するフレームワークを提案。単純にセピア調になっているのではなく髪型やメイクも影響を受けており非常に面白い。
    • リポジトリはFaces Through Time

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models

An Empirical Study on Finding Spans

  • An Empirical Study on Finding Spans [31.4]
    エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに着目する。 タスク特性を考慮せずに、すべての下流タスクをうまく解決できる銀の弾丸がないことを認識します。
    論文  参考訳(メタデータ)   (Thu, 13 Oct 2022 08:15:48 GMT)
    • Named Entity Recognition (NER)、Event Extraction (EE)、Relation Extraction (RE)、Coreference Resolution (CR)といったスパンを発見するタスク(典型的には下記)に関するサーベイ
    • 当然かもだが銀の弾丸はない「we found that there is not a single recipe that is best for all scenarios」とのこと

SpaceQA

  • SpaceQA: Answering Questions about the Design of Space Missions and Space Craft Concepts [57.0]
    宇宙ミッション設計における最初のオープンドメインQAシステムであるSpaceQAについて述べる。 SpaceQAは、欧州宇宙機関(ESA)による、宇宙ミッションの設計に関する情報のアクセス、共有、再利用を容易にするイニシアチブの一部である。
    論文  参考訳(メタデータ)   (Fri, 7 Oct 2022 09:41:39 GMT)
    • 試行運用に入っているQAエンジンとのこと。一般的な部品をうまく組み合わせているように見える。
    • リポジトリはexpertailab/SpaceQA (github.com)

CLIP also Understands Text

  • CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.6]
    Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。 本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
    論文  参考訳(メタデータ)   (Tue, 11 Oct 2022 23:35:18 GMT)
    • 自然言語と画像を結びつけるように使用されることが多い印象のCLIPが純粋なテキスト処理でもBERTなどを超える能力を持っているとの報告。モデルサイズが小さいにも関わらず良好な結果を出せているのが興味深い。
      • 画像とのペアでの学習が理解を助けるというのはめっちゃ人間っぽいし何となく納得感もあるが、詳細な理由が知りたいところ

Foundation Transformers

  • Foundation Transformers [105.1]
    我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。 本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:16:27 GMT)
    • MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
    • プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)

Human Motion Diffusion Model 

  • Human Motion Diffusion Model [35.1]
    運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。 我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
    論文  参考訳(メタデータ)   (Mon, 3 Oct 2022 09:17:41 GMT)

Knowledge Unlearning for Mitigating Privacy Risks in Language Models

  • Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.3]
    言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。 トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。 抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 10:18:11 GMT)

Multilingual Grade School Math (MGSM) ベンチマーク

  • Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
    本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。 言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 17:03:34 GMT)
    • GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
    • EN-COT > Native-COTである点は興味深い(そして翻訳を介するのがもっとの性能が高いのも…)
    • リポジトリはgoogle-research/url-nlp (github.com)