コンテンツへスキップ
- REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。 その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文 参考訳(メタデータ) (Wed, 1 Feb 2023 00:15:18 GMT)
- 外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整(学習)可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。(当然かもだが)REPLUG LSRの方が性能が高そう。
- 検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。
- The Flan Collection: Designing Data and Methods for Effective Instruction Tuning [118.7]
本研究は,Flan 2022の開発を壊し,一般公開された指導チューニング手法の設計決定について検討する。 タスクバランスやエンリッチメントの手法は見過ごされがちだが、効果的な指導チューニングには不可欠である。 インストラクションチューニングの研究を加速するために、データセット、テンプレート、メソッドのFlan 2022コレクションを公開しています。
論文 参考訳(メタデータ) (Tue, 31 Jan 2023 15:03:44 GMT)
- instruction tuningに関するコレクションとそれと使って構築したモデルに関する論文。 Flan-T5 XL は過去のモデル(GLM 130BやOPT-175Bなど巨大モデル含)を超える性能。
- リポジトリはFLAN/flan/v2 at main · google-research/FLAN · GitHub
- A Watermark for Large Language Models [60.7]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (Tue, 24 Jan 2023 18:52:59 GMT)
- 大規模言語モデルの出力に透かしを入れ検知できるようにするフレームワークの提案。
ChatGPTにはすでに導入されいたりするのだろうか・・・?
- リポジトリはGitHub – jwkirchenbauer/lm-watermarking
- BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
本稿では,深層モデル変異検査に基づく防御手法を提案する。 バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。 次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文 参考訳(メタデータ) (Wed, 25 Jan 2023 05:24:46 GMT)
- 「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃(現時点でメジャーなすべての攻撃)に対応可能とのこと。
- この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。
- XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。 我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
論文 参考訳(メタデータ) (Wed, 25 Jan 2023 09:15:17 GMT)
- 多言語モデルで問題(かつ議論)となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
- 「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。
- Experimenting with an Evaluation Framework for Imbalanced Data Learning (EFIDL) [9.0]
データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。 機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。 我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 26 Jan 2023 01:16:02 GMT)
- 不均衡データセットに対応する手法への評価フレームワークの提案。様々な手法が試されており、その部分も参考になる。(評価手法を間違えているので)不均衡データへの対応手法が非常に効果的と誤った結論を出しがちというのはとっても同意。この論文の結論の一つは「data augmentation does not help improve ML prediction performance」
- 参考にはなるのだが「Instead, we used the default parameters provided by the scikit-learn library.」というのは…
- The Semantic Scholar Open Data Platform [79.4]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。 我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。 このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (Tue, 24 Jan 2023 17:13:08 GMT)
- Semantic Scholar | AI-Powered Research Tool の論文
- ソフトウェア構成が非常に参考になる。一部はfugumt.comでも取り入れたい。
- MusicLM: Generating Music From Text [24.5]
テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
論文 参考訳(メタデータ) (Thu, 26 Jan 2023 18:58:53 GMT)
- テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
- プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
- MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0
- Toward General Design Principles for Generative AI Applications [16.1]
生成AIアプリケーションの設計に関する7つの原則を提示する。 生成AIの特徴として、複数の成果と不完全性、探索と制御、メンタルモデルと説明の6つの原則が重視されている。 我々は、生成モデルの有害な出力、誤用、または人的変位の可能性によって引き起こされる可能性のある潜在的な害に対して設計をするようデザイナーに促す。
論文 参考訳(メタデータ) (Fri, 13 Jan 2023 14:37:56 GMT)
- 近年、強力な生成系AI(画像生成、テキスト生成、…)のリリースが相次いでいるがその設計で守るべき原則を整理した論文、100以上の引用数があり納得感のある指摘となっている
- 7つの原則は「Design against harms」だけが独立(全体をカバー)、その他は「Multiple outputs」「Imperfection」「Mental models」「Explanation」「Exploration」「Control」が挙げられている。
- DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature [143.5]
学生は、大きな言語モデル(LLM)を使用して、書面の課題を完成させることができ、インストラクターは生徒の学習を正確に評価することができない。 まず、LLMからサンプリングされたテキストがモデルのログ確率関数の負の曲率領域を占める傾向があることを示す。 次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
論文 参考訳(メタデータ) (Thu, 26 Jan 2023 18:44:06 GMT)
- 機械が生成されたテキストを検出する手法の提案
- 「minor rewrites of model-generated text tend to have lower log probability under the model than the original sample, while minor rewrites of human-written text may have higher or lower log probability than the original sample.」というシンプルな仮定で強力な性能を実現している
- プロジェクトサイトはDetectGPT (ericmitchell.ai)