BEiT-3

  • Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
    汎用多目的基礎モデルBEiT-3を紹介する。 視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Aug 2022 16:55:04 GMT)
    • vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
    • 画像を外国語(言語)として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
    • プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

DreamBooth: 画像生成モデルのパーソナライズ

  • DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
    テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 17:45:49 GMT)
    • 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
    • プロジェクトサイトはDreamBooth

Z-Code++: 要約のための事前学習モデル

  • Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.1]
    Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。 このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。 パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを上回る。
    論文  参考訳(メタデータ)   (Sun, 21 Aug 2022 01:00:54 GMT)
    • 抽象型要約に最適化された言語モデルの提案。事前学習時のデータの使い方の工夫、(self-attentionより効率的とされる)disentangled attentionの利用、長文のための fusion-in-encoderによってパラメータ効率の高いモデルを構築。

教師無し異常検知におけるData Augmentation

  • Role of Data Augmentation in Unsupervised Anomaly Detection [30.4]
    自己教師付き学習(SSL)は、現実のタスクの監視信号を作成するための有望な代替手段として登場した。 近年の研究では、増強のタイプがパフォーマンスに重大な影響を与えることが報告されている。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 13:09:25 GMT)
    • (やるべきか迷いことも多い)異常検知におけるData Augmentationの調査。
    • 当然といえば当然だが異常発生メカニズムの整合が重要とのこと。対象はSelf-supervised learningのAnomaly Detectionだが、一般的にも通用する話だと思う。

XAIとEnd User

  • Transcending XAI Algorithm Boundaries through End-User-Inspired Design [27.9]
    エンドユーザに対する説明責任重視の機能サポートの欠如は、高度なドメインにおけるAIの安全で責任ある使用を妨げる可能性がある。 我々の研究は、エンドユーザーがXAIを使用する際の技術的な問題を根底から解決することで、新たな研究課題がもたらされることを示している。 このようなエンドユーザにインスパイアされた研究質問は、AIを民主化し、クリティカルドメインにおけるAIの責任ある使用を保証することによって、社会的善を促進できる可能性がある。
    論文  参考訳(メタデータ)   (Thu, 18 Aug 2022 09:44:51 GMT)
    • XAIを32名の参加者に試したみたという論文。Explanation formの整理も参考になる。

法的議論と自然言語処理

  • Mining Legal Arguments in Court Decisions [43.1]
    我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。 まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。 第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。 最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
    論文  参考訳(メタデータ)   (Fri, 12 Aug 2022 08:59:55 GMT)

A Survey on Incomplete Multi-view Clustering

  • A Survey on Incomplete Multi-view Clustering [66.5]
    病気の診断、マルチメディア分析、レコメンデーションシステムなどの実践的な応用では、サンプルのすべてのビューが利用できるわけではない。 。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 03:00:59 GMT)

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

  • TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.8]
  • 我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。 既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。 本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
  • 論文  参考訳(メタデータ)   (Sun, 14 Aug 2022 04:07:40 GMT)

テキストの分散表現

  • Neural Embeddings for Text [14.1]
    本稿では,意味的意味を深く表現する自然言語テキストの埋め込みについて提案する。 この方法では、言語モデルにテキストから学習させ、文字通りその脳を選択して、モデルのニューロンの実際の重みを取り、ベクトルを生成する。 ニューラルネットワークの埋め込みとGPT文の埋め込みを比較した。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 16:26:13 GMT)

深層強化学習: 20分間で公園内の四足歩行を学習

  • A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
    深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。 機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 17:37:36 GMT)
    • (4足歩行とはいえ)既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
      • 昔の苦労から考えるとすごい進化