大規模言語モデルへの透かし

  • A Watermark for Large Language Models [60.7]
    本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
    論文  参考訳(メタデータ)   (Tue, 24 Jan 2023 18:52:59 GMT)
  • 大規模言語モデルの出力に透かしを入れ検知できるようにするフレームワークの提案。
    ChatGPTにはすでに導入されいたりするのだろうか・・・?
  • リポジトリはGitHub – jwkirchenbauer/lm-watermarking

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing 

  • BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
    本稿では,深層モデル変異検査に基づく防御手法を提案する。 バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。 次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 05:24:46 GMT)
  • 「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃(現時点でメジャーなすべての攻撃)に対応可能とのこと。
  • この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 

  • XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
    我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。 我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 09:15:17 GMT)
  • 多言語モデルで問題(かつ議論)となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
  • 「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。

Experimenting with an Evaluation Framework for Imbalanced Data Learning

  • Experimenting with an Evaluation Framework for Imbalanced Data Learning (EFIDL) [9.0]
    データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。 機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。 我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 01:16:02 GMT)
  • 不均衡データセットに対応する手法への評価フレームワークの提案。様々な手法が試されており、その部分も参考になる。(評価手法を間違えているので)不均衡データへの対応手法が非常に効果的と誤った結論を出しがちというのはとっても同意。この論文の結論の一つは「data augmentation does not help improve ML prediction performance」
  • 参考にはなるのだが「Instead, we used the default parameters provided by the scikit-learn library.」というのは…

Semantic Scholar

  • The Semantic Scholar Open Data Platform [79.4]
    セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。 我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。 このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
    論文  参考訳(メタデータ)   (Tue, 24 Jan 2023 17:13:08 GMT)
  • Semantic Scholar | AI-Powered Research Tool の論文
  • ソフトウェア構成が非常に参考になる。一部はfugumt.comでも取り入れたい。

MusicLMとMusicCaps

  • MusicLM: Generating Music From Text [24.5]
    テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:58:53 GMT)
  • テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
  • プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
  • MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0