Scaling Data-Constrained Language Models

  • Scaling Data-Constrained Language Models [151.9]
    データ制約付きシステムにおける言語モデルのスケーリングについて検討する。 固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。 本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 17:18:55 GMT)
  • データ制約がある場合のスケーリングに関する検討、実験を通した実証的な論文
  • リポジトリはGitHub – huggingface/datablations: Scaling Data-Constrained Language Models

LIMA: Less Is More for Alignment

  • LIMA: Less Is More for Alignment [112.9]
    65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。 制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 17:45:22 GMT)
  • 強力なベースモデルとよくキュレーションされた1000個の例があれば複雑なクエリを扱えるChatGPTのような動きが可能という報告。
  • 「Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.」ということで事前学習モデルの重要性は他の報告と整合的。

FACTSCORE: Factual precision in Atomicity Score

  • FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [130.4]
    FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。 我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。 また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
    論文  参考訳(メタデータ)   (Tue, 23 May 2023 17:06:00 GMT)
  • 生成されたテキストの事実性を判定する手法の提案と評価。生成分を事実情報まで分割し、知識ソースとの整合性を確認するアプローチのよう。
  • 検証結果も非常に興味深い。特にOSSモデルのスコアはベースモデルの性能が影響しているように見え、チャットの模倣と基礎モデルの能力は別物であることを示唆(The False Promise of Imitating Proprietary LLMsと同じ示唆)している気がする。

Chameleon

  • Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models [195.7]
    大規模言語モデル(LLM)は、様々な自然言語処理タスクの解決において顕著な進歩を遂げている。 LLMは、最新の情報にアクセスできないため、固有の制限がある。 本稿では,LLMを合成推論のためのプラグアンドプレイモジュールで拡張するAIシステムChameleonを紹介する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 17:52:19 GMT)
  • 様々な手法(off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules)を組み合わせて問題を解くプランナー&実行フレームワークの提案。4ページの表からはHuggingGPTなど近い発想の手法よりも多様なツールに対応していることが見て取れる。ベンチマーク結果も優れている(Adaptorなどを使ったFinetune以上に見える)
  • プロジェクトサイトはChameleon: Plug-and-Play Compositional Reasoning with Large Language Models (chameleon-llm.github.io)

RWKV: Reinventing RNNs for the Transformer Era

The False Promise of Imitating Proprietary LLMs

  • The False Promise of Imitating Proprietary LLMs [158.7]
    より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。 このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。 まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。 次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 05:00:12 GMT)
  • 様々な所でトライされている「強力なLLMからの出力を使って、そうでもないLLMをfine tune」するアプローチを検証した論文。指示に良く従うように見えるが本質的な性能差を埋めているわけではないとの指摘。
  • 「We showed that imitation can indeed improve the style, persona, and instruction adherence of open-source LMs. However, imitation falls short in improving LMs across more challenging axes such as factuality, coding, and problem solving.」ということで応答部分の模倣がうまくいくからと言って問題を解く能力が増加して言えるわけでない、という当たり前と言えば当たり前の指摘。。

OSSなLLMだとLLaMAをoutperformしたというFALCON-40B、tiiuae/falcon-40b · Hugging Faceに期待大、Open LLM Leaderboard – a Hugging Face Space by HuggingFaceH4で現在のところトップの性能。商用利用時にはライセンス利用料が必要とのことで、ライセンスはよく読んで理解する必要がある。

Language Models Meet World Models

  • Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
    大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 00:35:38 GMT)
  • 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
  • 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。

SearChain: Search-in-the-Chain

  • Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
    本稿では,マルチホップ質問応答のためのLLM生成コンテンツの正確性,信頼性,トレーサビリティを向上させるために,検索・イン・ザ・チェイン(SearChain)と呼ばれる新しいフレームワークを提案する。 SearChainは大規模言語モデル(LLM)と情報検索(IR)を深く統合したフレームワークである
    論文  参考訳(メタデータ)   (Fri, 5 May 2023 02:35:48 GMT)
  • LLM + information retrievalでマルチホップな問題を解くフレームワークの提案、複数のベンチマークで優れた性能
  •  プロンプト自体・使い方・複数回の問い合わせを工夫していくのはまだまだ続きそうで、LLMの鉱脈は深そう

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models  

  • Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [91.6]
    大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した 入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
    論文  参考訳(メタデータ)   (Thu, 11 May 2023 05:19:47 GMT)
  • LLMが機械翻訳出も優れた性能を出すことは知られており(というか初期のモチベーションの1つでもあり)、その性能を引き出すため辞書的な情報をプロンプトに入れる手法の提案
  • 多くの言語でテストしており非常に有望な結果。日本語では効果がなさそうな理由を知りたいところ。

Learning to Reason and Memorize with Self-Notes 

  • Learning to Reason and Memorize with Self-Notes [41.7]
    大規模言語モデルは、限られた文脈記憶と多段階推論に苦しむことが示されている。 本稿では,これらの問題を解決するための簡単な手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 1 May 2023 14:02:48 GMT)
  • Self-Noteというスクラッチパッドとして機能する部分をプロンプトに入れてモデル自体がそこをメモとして利用可能とする研究
  • LLMを使っていると長さ制限に苦しむことが多く非常に欲しい機能