LIMA: Less Is More for Alignment

  • LIMA: Less Is More for Alignment [112.9]
    65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。 制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 17:45:22 GMT)
  • 強力なベースモデルとよくキュレーションされた1000個の例があれば複雑なクエリを扱えるChatGPTのような動きが可能という報告。
  • 「Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.」ということで事前学習モデルの重要性は他の報告と整合的。

CoFe:

  • How Do In-Context Examples Affect Compositional Generalization? [86.6]
    本稿では,コンテクスト内構成一般化を検証するためのテストスイートであるCoFeを提案する。 構成一般化性能は、文脈内例の選択によって容易に影響を受けることが判明した。 我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示します。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 02:34:40 GMT)
  • in context learningのテストスイートの提案、詳細な分析がなされており非常に参考になる。「Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple.」とあるのは直感的にもそうだとは思うが、それぞれの要素について検証がなされているのが凄い。
  • リポジトリはContextualSP/cofe at master · microsoft/ContextualSP · GitHub

FACTSCORE: Factual precision in Atomicity Score

  • FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [130.4]
    FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。 我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。 また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
    論文  参考訳(メタデータ)   (Tue, 23 May 2023 17:06:00 GMT)
  • 生成されたテキストの事実性を判定する手法の提案と評価。生成分を事実情報まで分割し、知識ソースとの整合性を確認するアプローチのよう。
  • 検証結果も非常に興味深い。特にOSSモデルのスコアはベースモデルの性能が影響しているように見え、チャットの模倣と基礎モデルの能力は別物であることを示唆(The False Promise of Imitating Proprietary LLMsと同じ示唆)している気がする。

ExpertPrompting

  • ExpertPrompting: Instructing Large Language Models to be Distinguished Experts [93.6]
    ExpertPromptingは、著名な専門家として答えるために、大きな言語モデルの可能性を秘めている。 我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 03:51:31 GMT)
  • 工夫したプロンプト戦略を使ってデータセットを作成しLLaMA 7Bをチューニング、Vicunaなどを超えChatGPTの96%の能力を達成とのこと。Bardを超えているようにみえるのも興味深い。
  • リポジトリはGitHub – OFA-Sys/ExpertLLaMA: An opensource ChatBot built with ExpertPrompting which achieves 96% of ChatGPT’s capability.

Chameleon

  • Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models [195.7]
    大規模言語モデル(LLM)は、様々な自然言語処理タスクの解決において顕著な進歩を遂げている。 LLMは、最新の情報にアクセスできないため、固有の制限がある。 本稿では,LLMを合成推論のためのプラグアンドプレイモジュールで拡張するAIシステムChameleonを紹介する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 17:52:19 GMT)
  • 様々な手法(off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules)を組み合わせて問題を解くプランナー&実行フレームワークの提案。4ページの表からはHuggingGPTなど近い発想の手法よりも多様なツールに対応していることが見て取れる。ベンチマーク結果も優れている(Adaptorなどを使ったFinetune以上に見える)
  • プロジェクトサイトはChameleon: Plug-and-Play Compositional Reasoning with Large Language Models (chameleon-llm.github.io)

RWKV: Reinventing RNNs for the Transformer Era

The False Promise of Imitating Proprietary LLMs

  • The False Promise of Imitating Proprietary LLMs [158.7]
    より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。 このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。 まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。 次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 05:00:12 GMT)
  • 様々な所でトライされている「強力なLLMからの出力を使って、そうでもないLLMをfine tune」するアプローチを検証した論文。指示に良く従うように見えるが本質的な性能差を埋めているわけではないとの指摘。
  • 「We showed that imitation can indeed improve the style, persona, and instruction adherence of open-source LMs. However, imitation falls short in improving LMs across more challenging axes such as factuality, coding, and problem solving.」ということで応答部分の模倣がうまくいくからと言って問題を解く能力が増加して言えるわけでない、という当たり前と言えば当たり前の指摘。。

OSSなLLMだとLLaMAをoutperformしたというFALCON-40B、tiiuae/falcon-40b · Hugging Faceに期待大、Open LLM Leaderboard – a Hugging Face Space by HuggingFaceH4で現在のところトップの性能。商用利用時にはライセンス利用料が必要とのことで、ライセンスはよく読んで理解する必要がある。

MolXPT

  • MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.1]
    MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。 MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 03:58:19 GMT)
  • 論文と対応するSMILES表記を学習、prompt-based finetuningすることで優れた性能を発揮。論文をうまく使っている点が面白い。

Language Models Meet World Models

  • Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
    大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 00:35:38 GMT)
  • 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
  • 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。

DLUE: Document Language Understanding Evaluation

  • DLUE: Benchmarking Document Language Understanding [32.6]
    文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。 本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。 新しい評価フレームワークでは、新しいタスクスイートである DLUE の Document Language Understanding Evaluation を提案する。
    論文  参考訳(メタデータ)   (Tue, 16 May 2023 15:16:24 GMT)
  • 文書読解タスクのベンチマーク。document classification、document structure analysis、document information extraction、document transcriptionが対象。
  • プロジェクトサイトはDLUE – Coming Soon (dluebenchmark.com)