SpaceQA

  • SpaceQA: Answering Questions about the Design of Space Missions and Space Craft Concepts [57.0]
    宇宙ミッション設計における最初のオープンドメインQAシステムであるSpaceQAについて述べる。 SpaceQAは、欧州宇宙機関(ESA)による、宇宙ミッションの設計に関する情報のアクセス、共有、再利用を容易にするイニシアチブの一部である。
    論文  参考訳(メタデータ)   (Fri, 7 Oct 2022 09:41:39 GMT)
    • 試行運用に入っているQAエンジンとのこと。一般的な部品をうまく組み合わせているように見える。
    • リポジトリはexpertailab/SpaceQA (github.com)

CLIP also Understands Text

  • CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.6]
    Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。 本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
    論文  参考訳(メタデータ)   (Tue, 11 Oct 2022 23:35:18 GMT)
    • 自然言語と画像を結びつけるように使用されることが多い印象のCLIPが純粋なテキスト処理でもBERTなどを超える能力を持っているとの報告。モデルサイズが小さいにも関わらず良好な結果を出せているのが興味深い。
      • 画像とのペアでの学習が理解を助けるというのはめっちゃ人間っぽいし何となく納得感もあるが、詳細な理由が知りたいところ

Foundation Transformers

  • Foundation Transformers [105.1]
    我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。 本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:16:27 GMT)
    • MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
    • プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)

Human Motion Diffusion Model 

  • Human Motion Diffusion Model [35.1]
    運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。 我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
    論文  参考訳(メタデータ)   (Mon, 3 Oct 2022 09:17:41 GMT)

Knowledge Unlearning for Mitigating Privacy Risks in Language Models

  • Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.3]
    言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。 トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。 抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 10:18:11 GMT)

Multilingual Grade School Math (MGSM) ベンチマーク

  • Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
    本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。 言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 17:03:34 GMT)
    • GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
    • EN-COT > Native-COTである点は興味深い(そして翻訳を介するのがもっとの性能が高いのも…)
    • リポジトリはgoogle-research/url-nlp (github.com)

Backdoor Attacks in the Supply Chain of Masked Image Modeling 

  • Backdoor Attacks in the Supply Chain of Masked Image Modeling [26.9]
    Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。 本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。 評価の結果、MIMで構築したモデルは、リリースおよびダウンストリームフェーズにおける既存のバックドアアタックに対して脆弱であることがわかった。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 14:27:42 GMT)
    • MIM(Masked Image Modeling)を用いたモデルに対し、構築過程ごとにリスク分析を行った論文。驚きの結果というわけではないが、攻撃方法(前提)の整理がとても参考になる。

AMA: Ask Me Anything

  • Ask Me Anything: A simple strategy for prompting language models [24.3]
    大規模言語モデル(LLM)は、単にタスクの実行方法を示す自然言語プロンプトを与えられただけで、追加のトレーニングは行われない。本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。 収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。 プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 06:39:56 GMT)

MEDFAIR: 医療画像処理の公平性ベンチマーク

  • MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
    MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。 モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。 異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 16:30:47 GMT)

MuRAG: マルチモーダルなRAG

  • MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
    我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 13:58:03 GMT)
    • マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。