- RWKV: Reinventing RNNs for the Transformer Era [27.3]
本稿では,トランスフォーマーの効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。 提案手法は線形アテンション機構を利用して,トレーニング中に計算を並列化し,推論中に一定の計算量とメモリの複雑さを維持するトランスフォーマーあるいはRNNとしてモデルを定式化することができる。 我々の実験は、RWKVが同様の大きさのトランスフォーマーと同等に動作していることを示し、将来の作業がこのアーキテクチャを活用してより効率的なモデルを作成することができることを示唆している。
論文 参考訳(メタデータ) (Mon, 22 May 2023 13:57:41 GMT) - 性能が高いと噂のRNNベースのRWKVの論文
- 「While many alternatives to Transformers have been proposed with similar claims, ours is the first to back up those claims with pretrained models with tens of billions of parameters.」という記載が熱く、おっしゃる通りで実用レベルの大きさ&有名ベンチマークで有効性を示すことは重要だと思う。
- リポジトリはGitHub – BlinkDL/RWKV-LM: RWKV is an RNN with transformer-level LLM performance. It can be directly trained like a GPT (parallelizable). So it’s combining the best of RNN and transformer – great performance, fast inference, saves VRAM, fast training, “infinite” ctx_len, and free sentence embedding.
The False Promise of Imitating Proprietary LLMs
- The False Promise of Imitating Proprietary LLMs [158.7]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。 このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。 まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。 次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (Thu, 25 May 2023 05:00:12 GMT) - 様々な所でトライされている「強力なLLMからの出力を使って、そうでもないLLMをfine tune」するアプローチを検証した論文。指示に良く従うように見えるが本質的な性能差を埋めているわけではないとの指摘。
- 「We showed that imitation can indeed improve the style, persona, and instruction adherence of open-source LMs. However, imitation falls short in improving LMs across more challenging axes such as factuality, coding, and problem solving.」ということで応答部分の模倣がうまくいくからと言って問題を解く能力が増加して言えるわけでない、という当たり前と言えば当たり前の指摘。。
OSSなLLMだとLLaMAをoutperformしたというFALCON-40B、tiiuae/falcon-40b · Hugging Faceに期待大、Open LLM Leaderboard – a Hugging Face Space by HuggingFaceH4で現在のところトップの性能。商用利用時にはライセンス利用料が必要とのことで、ライセンスはよく読んで理解する必要がある。
MolXPT
- MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.1]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。 MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (Thu, 18 May 2023 03:58:19 GMT) - 論文と対応するSMILES表記を学習、prompt-based finetuningすることで優れた性能を発揮。論文をうまく使っている点が面白い。
Language Models Meet World Models
- Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (Thu, 18 May 2023 00:35:38 GMT) - 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
- 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。
DLUE: Document Language Understanding Evaluation
- DLUE: Benchmarking Document Language Understanding [32.6]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。 本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。 新しい評価フレームワークでは、新しいタスクスイートである DLUE の Document Language Understanding Evaluation を提案する。
論文 参考訳(メタデータ) (Tue, 16 May 2023 15:16:24 GMT) - 文書読解タスクのベンチマーク。document classification、document structure analysis、document information extraction、document transcriptionが対象。
- プロジェクトサイトはDLUE – Coming Soon (dluebenchmark.com)
SOCRATIC COT
- Distilling Reasoning Capabilities into Smaller Language Models [83.7]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。 しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。 本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (Thu, 18 May 2023 04:44:51 GMT) - 大規模なモデルから得たCoTの出力を小さなモデルに適用する取り組み。CoTをより細かいQAに分解し、Question GeneratorモデルとQAモデルを学習する仕組みのよう。小さなモデル (GPT-2 large) で10倍のモデル (GPT-3 6B)をout performしたとのこと。
- リポジトリはGitHub – kumar-shridhar/Distiiling-LM: The code for the paper : Distilling Reasoning Capabilities into Smaller Language Models
What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning
- What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning [24.4]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。 ICLがデモを利用する2つの方法の特徴付けを行う。 TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことTLの性能はコンテキストにおけるより多くのデモで一貫して改善されることを示す。
論文 参考訳(メタデータ) (Tue, 16 May 2023 18:05:19 GMT) - in context learningをtask recognition (TR)、 task learning (TL)に分けて検証した論文。 タスクを知る動きとコンテキスト内デモでの学習は別物として扱えそうという結果で大変興味深い。
- リポジトリはGitHub – princeton-nlp/WhatICLLearns: https://arxiv.org/abs/2305.09731
What’s the Meaning of Superhuman Performance in Today’s NLU?
- What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。 より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文 参考訳(メタデータ) (Mon, 15 May 2023 07:48:31 GMT) - ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは?について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark
- GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.1]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。 オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。 我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (Thu, 11 May 2023 03:21:56 GMT) - 地理的情報を含めた自然言語処理ベンチマーク、Geo-POI Searching、 GeoSequence Tagging、Geo-Text Classificationがタスク。実用性が高そうなタスクという印象。
- リポジトリは地理语义理解能力评测基准 · 数据集 (modelscope.cn)
DoReMi: Domain Reweighting with Minimax Optimization
- DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3]
ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
論文 参考訳(メタデータ) (Wed, 17 May 2023 17:58:13 GMT) - データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
- The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・?