コンテンツへスキップ
- Diffusion Language Models are Super Data Learners [61.7]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。 本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 08:17:42 GMT)
- 「The main empirical finding is a Crossover: when total training tokens are fixed but the number of unique tokens is limited, DLMs consistently surpass equally sized AR counterparts. This crossover is not an isolated artifact—it systematically shifts with core factors. With more unique data, it shifts later; with higher data quality, it shifts later; with larger models, the crossover arrives earlier; and it persists across dense and sparse (MoE) architectures (Figures 2, 3, 4). Under compute-bound settings with abundant unique data, AR recovers its edge by fitting the data more rapidly; but in data-bound regimes, which is our focus and, increasingly, the practical reality, DLM is the final winner.」との主張。Diffusion Beats Autoregressive in Data-Constrained Settings – arXiv最新論文の紹介の主張とも整合的であるように思う。
- プロジェクトサイトはDiffusion Language Models are Super Data Learners、リポジトリはGitHub – JinjieNi/dlms-are-super-data-learners: The official github repo for “Diffusion Language Models are Super Data Learners”.
同著者の下記論文も興味深い。
- Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文 参考訳(メタデータ) (Mon, 31 Jul 2023 17:57:49 GMT)
- エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
- プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)
- A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.9]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。 PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。 最近の研究では、高密度PLMは、性能を損なうことなくスパースサブネットに置き換えることができることが示されている。
論文 参考訳(メタデータ) (Tue, 11 Oct 2022 07:26:34 GMT)
- Weakly Supervised Text Classification using Supervision Signals from a Language Model [33.6]
我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。 マスク付き言語モデルは[MASK]トークンの単語を生成することができる。 文書の内容を要約した生成された単語を監視信号として利用することができる。
論文 参考訳(メタデータ) (Fri, 13 May 2022 12:57:15 GMT)- 大規模言語モデルを用いて教師信号を作り、弱教師有り学習に持ち込む研究。言語モデルで単語を生成させ、その単語とカテゴリを紐づけている。
- 大規模言語モデルからの情報抽出は結構流行っている印象
- ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.1]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。 実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (Tue, 3 May 2022 14:18:10 GMT)
- LM-Debugger: An Interactive Tool for Inspection and Intervention in Transformer-Based Language Models [40.9]
我々は、トランスフォーマーベース言語モデル(LM)のためのインタラクティブデバッガツール、LM-Debuggerを紹介した。 モデルの内部予測プロセスのきめ細かい解釈と、LMの振る舞いを介入するための強力なフレームワークを提供する。 LM-Debuggerは,ネットワーク内のいくつかのベクトルを識別することにより,モデルの振る舞いをユーザの選択方向にシフトさせるのがいかに容易かを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 26 Apr 2022 07:51:25 GMT)
- ELLE: Efficient Lifelong Pre-training for Emerging Data [91.5]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。 新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。 ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文 参考訳(メタデータ) (Sat, 12 Mar 2022 01:53:53 GMT)- 特に言語モデルで問題となる新たなデータに対する継続的な学習(ここではLifelong learning)に関する論文。計算コスト等を下げる効率的な枠組みを提案。既存の言語モデルの幅や深さ(パラメータ数)を拡大する際に効率化が可能とのこと。
- 新たなデータを獲得するたびにモデルサイズも拡張していく設定がリアル。。。
- Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.4]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。 フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。 高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
論文 参考訳(メタデータ) (Wed, 26 Jan 2022 18:46:26 GMT)
- Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs [76.6]
Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。 本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
論文 参考訳(メタデータ) (Fri, 26 Nov 2021 18:33:59 GMT)- 言語モデルに信念があるか調査し、その度合いを改善する手法を提案
- 信念を測るために一貫性をもとにしたスコアを利用しているようで面白い研究。言語モデルが内包する道徳的な問題を改善するための利用を想定とのことで、社会実装においても重要になると思う。
- Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [94.0]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。 提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (Fri, 29 Oct 2021 04:01:32 GMT)- 自然言語処理の論文のような論文だが扱っている対象はタンパク質。LSTMも有効だったとのことでMLMに効果がありそうなのはわかるが、この手の構造が汎用的に有効なのか、バイオ系に特化した構造というのがあるのかないのかは興味がある。