Backdoor Attacks in the Supply Chain of Masked Image Modeling 

  • Backdoor Attacks in the Supply Chain of Masked Image Modeling [26.9]
    Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。 本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。 評価の結果、MIMで構築したモデルは、リリースおよびダウンストリームフェーズにおける既存のバックドアアタックに対して脆弱であることがわかった。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 14:27:42 GMT)
    • MIM(Masked Image Modeling)を用いたモデルに対し、構築過程ごとにリスク分析を行った論文。驚きの結果というわけではないが、攻撃方法(前提)の整理がとても参考になる。

AMA: Ask Me Anything

  • Ask Me Anything: A simple strategy for prompting language models [24.3]
    大規模言語モデル(LLM)は、単にタスクの実行方法を示す自然言語プロンプトを与えられただけで、追加のトレーニングは行われない。本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。 収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。 プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 06:39:56 GMT)

MEDFAIR: 医療画像処理の公平性ベンチマーク

  • MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
    MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。 モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。 異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 16:30:47 GMT)

MuRAG: マルチモーダルなRAG

  • MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
    我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 13:58:03 GMT)
    • マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。

GLM-130B

  • GLM-130B: An Open Bilingual Pre-trained Model [40.6]
    我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同程度にオープンソース化する試みである。 本稿では, GLM-130Bの設計選択, 効率と安定性の両面でのトレーニング戦略, エンジニアリングの取り組みを含む, GLM-130B のトレーニングプロセスを紹介する。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 17:34:44 GMT)

XDoc: Unified Pre-training for Cross-Format Document Understanding

  • XDoc: Unified Pre-training for Cross-Format Document Understanding [84.6]
    XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 12:07:18 GMT)
    • ドキュメント理解のため異なる文書フォーマットを単一のモデルで扱う統一事前学習モデルXdocを提案。
      • 省パラメータで様々な文章形式に対応できるのはありがたいが、(当たり前かもだが?)現時点ではそれぞれのSoTAには及んでいないよう。
    • リポジトリはunilm/xdoc at master · microsoft/unilm (github.com)

機械学習における要求工学

  • Requirements Engineering for Machine Learning: A Review and Reflection [39.0]
    本稿では,機械学習アプリケーションにおける要件工学プロセスの概要について述べる。 産業データ駆動インテリジェンスアプリケーションの例も、前述のステップに関連して議論されている。
    論文  参考訳(メタデータ)   (Mon, 3 Oct 2022 12:24:39 GMT)
    • 機械学習アプリケーションにおける要求をレビューした論文。CRISP-DM と CRISP-ML(Q)の差のようにデータ分析とは異なる点が面白い。
    • 「Fig 1: General collaborations of Stakeholders involved in ML Application Development」は役割分担(興味)を整理するうえでも面白い。

Imagen Video

  • Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
    Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。  imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 14:41:38 GMT)
    • Imagenの動画版、低解像度・低フレームレートの動画から画像方向・時間方向の両面で超解像度化を行っている
    • プロジェクトサイトはImagen Video (research.google)

Binding Language Models in Symbolic Languages

  • Binding Language Models in Symbolic Languages [146.3]
    Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。 解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。 実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 12:55:17 GMT)

WikiDes: Wikipediaベースの概要データセット

  • WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions from Paragraphs [66.9]
    ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。 データセットは、6987のトピックに関する80K以上の英語サンプルで構成されている。 本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
    論文  参考訳(メタデータ)   (Tue, 27 Sep 2022 01:28:02 GMT)
    • Wikipediaの最初の段落とWikidataの説明を関連付けしたデータセット。平均的なドキュメントサイズが小さめで段落をさらに短く説明するようなデータになっている。