staka – ページ 221 – arXiv最新論文の紹介

Benchmarking Large Language Models for News Summarization

Benchmarking Large Language Models for News Summarization [79.4]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 18:46:19 GMT)
GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

REPLUG: Retrieve and Plug

REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文参考訳（メタデータ） (Wed, 1 Feb 2023 00:15:18 GMT)
外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整（学習）可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。（当然かもだが）REPLUG LSRの方が性能が高そう。
検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。

The Flan Collection

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning [118.7]
本研究は,Flan 2022の開発を壊し,一般公開された指導チューニング手法の設計決定について検討する。タスクバランスやエンリッチメントの手法は見過ごされがちだが、効果的な指導チューニングには不可欠である。インストラクションチューニングの研究を加速するために、データセット、テンプレート、メソッドのFlan 2022コレクションを公開しています。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 15:03:44 GMT)
instruction tuningに関するコレクションとそれと使って構築したモデルに関する論文。 Flan-T5 XL は過去のモデル（GLM 130BやOPT-175Bなど巨大モデル含）を超える性能。
リポジトリはFLAN/flan/v2 at main · google-research/FLAN · GitHub

大規模言語モデルへの透かし

A Watermark for Large Language Models [60.7]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (Tue, 24 Jan 2023 18:52:59 GMT)
大規模言語モデルの出力に透かしを入れ検知できるようにするフレームワークの提案。
ChatGPTにはすでに導入されいたりするのだろうか・・・？
リポジトリはGitHub – jwkirchenbauer/lm-watermarking

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
本稿では,深層モデル変異検査に基づく防御手法を提案する。バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 05:24:46 GMT)
「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃（現時点でメジャーなすべての攻撃）に対応可能とのこと。
この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 09:15:17 GMT)
多言語モデルで問題（かつ議論）となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。

Experimenting with an Evaluation Framework for Imbalanced Data Learning

Experimenting with an Evaluation Framework for Imbalanced Data Learning (EFIDL) [9.0]
データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 01:16:02 GMT)
不均衡データセットに対応する手法への評価フレームワークの提案。様々な手法が試されており、その部分も参考になる。（評価手法を間違えているので）不均衡データへの対応手法が非常に効果的と誤った結論を出しがちというのはとっても同意。この論文の結論の一つは「data augmentation does not help improve ML prediction performance」
参考にはなるのだが「Instead, we used the default parameters provided by the scikit-learn library.」というのは…

Semantic Scholar

The Semantic Scholar Open Data Platform [79.4]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (Tue, 24 Jan 2023 17:13:08 GMT)
Semantic Scholar | AI-Powered Research Tool の論文
ソフトウェア構成が非常に参考になる。一部はfugumt.comでも取り入れたい。

MusicLMとMusicCaps

MusicLM: Generating Music From Text [24.5]
テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 18:58:53 GMT)
テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

Toward General Design Principles for Generative AI Applications

Toward General Design Principles for Generative AI Applications [16.1]
生成AIアプリケーションの設計に関する7つの原則を提示する。生成AIの特徴として、複数の成果と不完全性、探索と制御、メンタルモデルと説明の6つの原則が重視されている。我々は、生成モデルの有害な出力、誤用、または人的変位の可能性によって引き起こされる可能性のある潜在的な害に対して設計をするようデザイナーに促す。
論文参考訳（メタデータ） (Fri, 13 Jan 2023 14:37:56 GMT)
近年、強力な生成系AI（画像生成、テキスト生成、…）のリリースが相次いでいるがその設計で守るべき原則を整理した論文、100以上の引用数があり納得感のある指摘となっている
７つの原則は「Design against harms」だけが独立（全体をカバー）、その他は「Multiple outputs」「Imperfection」「Mental models」「Explanation」「Exploration」「Control」が挙げられている。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31