自然言語処理 – arXiv最新論文の紹介

xLSTM: Extended Long Short-Term Memory

xLSTM: Extended Long Short-Term Memory [26.6]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文参考訳（メタデータ） (Tue, 07 May 2024 17:50:21 GMT)
LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。

Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility [61.3]
機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割について検討する。 2018年12月から2023年10月までの間に、8000以上の論文の包括的なデータセットを収集しました。分析の結果,これらのインフルエンサーが支持する論文の引用量は,対照群に比べて2～3倍に増加した。
論文参考訳（メタデータ） (Wed, 24 Jan 2024 20:05:49 GMT)
私もよく見ているAK (@_akhaliq) とAran Komatsuzaki (@arankomatsuzaki)の影響を分析した論文。「Influencers as Catalysts for Visibility: Our comprehensive analysis reveals that papers shared by AK and Komatsuzaki receive statistically higher citation counts compared to non-endorsed works, confirming the significant role these influencers play in amplifying the reach of specific research.」と主張。
著者にフォーカスして（例えば過去数年のトップカンファ発表数や所属機関のトップカンファ発表数やニュース等での注目度）スコアリングすると対象となったインフルエンサーが紹介するプレプリントの多くを見つけるモデルが作れるので、著者データを使っていない分析が妥当かは非常に疑問。
上記モデルはfugumt.comのスコアリングに使われている（Fugu-MT:arXivの最新論文の表示をカスタマイズ (fugumt.com)）。「スコア」と「同一日付内でver.1の論文をインフルエンサーが紹介するかどうかの2値」でのROCAUCは直近で0.85 – 0.90くらいでスコアが高い。

Prompt前半と後半が優先される？

Lost in the Middle: How Language Models Use Long Contexts [91.0]
入力コンテキスト内の関連情報を識別する必要がある2つのタスクのパフォーマンスを解析する。入力コンテキストの開始時や終了時に関連情報が生じた場合、パフォーマンスが最も高いことが分かっています。明示的な長期コンテキストモデルであっても、入力コンテキストが長くなるにつれて、パフォーマンスは大幅に低下する。
論文参考訳（メタデータ） (Thu, 6 Jul 2023 17:54:11 GMT)
長いコンテキストを入れた時、前半と後半に関連する情報がある方が回答性能が高く、中間にある場合は性能が低くなるという指摘。claude-1.3, claude-1.3-100k, gpt-3.5-turbo-0613, gpt-3.5-turbo-16k-0613, mpt-30b-instruct, longchat-13b-16kと多種類のLLMやAPIで同傾向のようで、重要な情報や命令はPrompt前後に書くと良いというなんとなくの知見を裏付けるように思う。
リポジトリはGitHub – nelson-liu/lost-in-the-middle: Code and data for “Lost in the Middle: How Language Models Use Long Contexts”

A Comparative Audit of Privacy Policies from Healthcare Organizations in USA, UK and India

A Comparative Audit of Privacy Policies from Healthcare Organizations in USA, UK and India [19.5]
本稿では,米国,英国,インドにおける医療機関のプライバシポリシを監査するための大規模データ駆動型研究を提案する。まず、これらの国の何千もの医療機関のプライバシポリシを収集し、クラスタリングベースの混合メソッド技術を使用して、このプライバシポリシデータをクリーン化した。第2に、各国の正確なデータプラクティスを明らかにし、重要な違いに気づくために、要約ベースの手法を採用しました。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 14:21:37 GMT)
医療機関のプライバシーポリシーの分析に自然言語処理を使った研究
この手の分析にはfew-shotで高速な試行が可能なLLMが向いていそうな気がする（本研究では用いられていない）

What’s the Meaning of Superhuman Performance in Today’s NLU?

What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文参考訳（メタデータ） (Mon, 15 May 2023 07:48:31 GMT)
ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは？について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。

VALL-E

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文参考訳（メタデータ） (Thu, 5 Jan 2023 15:37:15 GMT)
最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。

BARTSmiles

BARTSmiles: Generative Masked Language Models for Molecular Representations [10.0]
BARTSmilesは、従来の自己制御分子表現よりも桁違いに計算量の多いBARTライクなモデルである。詳細な評価では、BARTSmilesは分類、回帰、生成タスクにまたがる他の自己監督的表現を一貫して上回っている。
論文参考訳（メタデータ） (Tue, 29 Nov 2022 16:30:53 GMT)
化学分野におけるBARTの利用、言語モデルが有効なものが面白い。
リポジトリはYerevaNN/BARTSmiles: BARTSmiles, generative masked language model for molecular representations (github.com)

自然言語処理へのバックドアアタックと防御のサーベイ

A Survey on Backdoor Attack and Defense in Natural Language Processing [18.3]
NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
論文参考訳（メタデータ） (Tue, 22 Nov 2022 02:35:12 GMT)
NLPにおける攻撃と防御のサーベイ
短めでざっくりと状況を知るのに良いサーベイ。自然言語一般かもしれないが、良いメトリクスが無いというのはつらいなーと思う（スコアリングモデル自体が攻撃対象になっているとめっちゃ大変そう）

BLOOMの論文

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [266.0]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。 BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。 BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文参考訳（メタデータ） (Wed, 9 Nov 2022 18:48:09 GMT)
オープンなLLM、bigscience/bloom · Hugging Faceの論文
オープンな巨大モデルは貴重であり自然言語処理分野での重要な研究成果。関わっている研究者も非常に多い。使用したデータセットに日本語が入っていない点は残念。ただ、Codeとして含まれていな内容を通じてか日本語も一定レベルで処理が可能であるのは興味深い。

XY-LENT: X-Y bitext enhanced Language ENcodings using Transformers

Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.4]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文参考訳（メタデータ） (Wed, 26 Oct 2022 17:16:52 GMT)
- ｍBERTやXLM-Rより優れた多言語モデルの提案

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31