Language Model – arXiv最新論文の紹介

Dynalang

Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文参考訳（メタデータ） (Mon, 31 Jul 2023 17:57:49 GMT)
エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.9]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。 PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。最近の研究では、高密度PLMは、性能を損なうことなくスパースサブネットに置き換えることができることが示されている。
論文参考訳（メタデータ） (Tue, 11 Oct 2022 07:26:34 GMT)
- BERTを対象として、データセットバイアスに対してスパースかつロバストなサブネットワークが存在するとの報告。
- リポジトリはllyx97/sparse-and-robust-PLM: [NeurIPS 2022] “A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models”, Yuanxin Liu, Fandong Meng, Zheng Lin, Jiangnan Li, Peng Fu, Yanan Cao, Weiping Wang, Jie Zhou (github.com)

言語モデルを用いた弱教師有り学習

Weakly Supervised Text Classification using Supervision Signals from a Language Model [33.6]
我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。マスク付き言語モデルは[MASK]トークンの単語を生成することができる。文書の内容を要約した生成された単語を監視信号として利用することができる。
論文参考訳（メタデータ） (Fri, 13 May 2022 12:57:15 GMT)
- 大規模言語モデルを用いて教師信号を作り、弱教師有り学習に持ち込む研究。言語モデルで単語を生成させ、その単語とカテゴリを紐づけている。
- 大規模言語モデルからの情報抽出は結構流行っている印象

ElitePLM: PLMの能力評価

ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.1]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文参考訳（メタデータ） (Tue, 3 May 2022 14:18:10 GMT)
- Pretrained Language Modelの詳細評価。PLMといっても事前学習の内容やデータ、モデルサイズなど多種多様でそれがどのような能力を持つか（何に適しているか）参考になる。
- リポジトリはGitHub – RUCAIBox/ElitePLM

LM-Debugger: 言語モデルのためのデバッガ

LM-Debugger: An Interactive Tool for Inspection and Intervention in Transformer-Based Language Models [40.9]
我々は、トランスフォーマーベース言語モデル(LM)のためのインタラクティブデバッガツール、LM-Debuggerを紹介した。モデルの内部予測プロセスのきめ細かい解釈と、LMの振る舞いを介入するための強力なフレームワークを提供する。 LM-Debuggerは,ネットワーク内のいくつかのベクトルを識別することにより,モデルの振る舞いをユーザの選択方向にシフトさせるのがいかに容易かを示す。
論文参考訳（メタデータ）参考訳（全文） (Tue, 26 Apr 2022 07:51:25 GMT)
- Transformerを対象としたデバッガ（介入も可能）。とても便利そう
- リポジトリはGitHub – mega002/lm-debugger: The official code of LM-Debugger, an interactive tool for inspection and intervention in transformer-based language models.

ELLE(Efficient Lifelong Pre-training for Emerging Data): 新たなデータの発生を考慮したPLM

ELLE: Efficient Lifelong Pre-training for Emerging Data [91.5]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。 ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文参考訳（メタデータ） (Sat, 12 Mar 2022 01:53:53 GMT)
- 特に言語モデルで問題となる新たなデータに対する継続的な学習（ここではLifelong learning）に関する論文。計算コスト等を下げる効率的な枠組みを提案。既存の言語モデルの幅や深さ（パラメータ数）を拡大する際に効率化が可能とのこと。
  - 新たなデータを獲得するたびにモデルサイズも拡張していく設定がリアル。。。
- リポジトリはGitHub – thunlp/ELLE

Whose Language Counts as High Quality?

Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.4]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
論文参考訳（メタデータ） (Wed, 26 Jan 2022 18:46:26 GMT)
- テキストをフィルタリングし高品質化することは大規模事前学習の前処理として一般的に行われている。現状は裕福な人が書いた（立場の強い人が書いた）テキストがその実態以上に高品質と判定されており、暗黙的な不平等につながる危険があるとの指摘。
- fugumtのフィルタリングルールでもドメイン名（第二レベルドメインなど）を大きな手掛かりとしており危険性を内包している可能性が高い。鋭い指摘だと思った。
- リポジトリはGitHub – kernelmachine/quality-filter: Code for “Whose language is high quality?” paper

言語モデルは世界に対する信念を持っているか？

Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs [76.6]
Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
論文参考訳（メタデータ） (Fri, 26 Nov 2021 18:33:59 GMT)
- 言語モデルに信念があるか調査し、その度合いを改善する手法を提案
  - 信念を測るために一貫性をもとにしたスコアを利用しているようで面白い研究。言語モデルが内包する道徳的な問題を改善するための利用を想定とのことで、社会実装においても重要になると思う。
- リポジトリはGitHub – peterbhase/SLAG-Belief-Updating: Code for paper “Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs”

Masked Language Modelを用いたタンパク質表現学習

Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [94.0]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (Fri, 29 Oct 2021 04:01:32 GMT)
- 自然言語処理の論文のような論文だが扱っている対象はタンパク質。LSTMも有効だったとのことでMLMに効果がありそうなのはわかるが、この手の構造が汎用的に有効なのか、バイオ系に特化した構造というのがあるのかないのかは興味がある。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31