MultiTool-CoT

  • MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting [23.6]
    推論過程において,計算機や知識検索などの外部ツールを組み込んだMultiTool-CoTを提案する。 NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。
    論文  参考訳(メタデータ)   (Fri, 26 May 2023 13:00:58 GMT)
  • Toolを組み込んだCoT、NumGLUEで効果を確認とのこと。

BigTrans

  • BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages [58.9]
    我々は,LLaMAを20言語のみに適応させ,100言語以上の多言語翻訳機能で拡張するBigTransを提案する。 BigTransは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語モノリンガルデータを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTransモデルに導出する。
    論文  参考訳(メタデータ)   (Mon, 29 May 2023 14:07:52 GMT)
  • LLaMAを多言語対応させる手法の提案、最初に中国語に対応させ、その後多言語に展開する方針で日本語でもやってみたい内容
  • リポジトリはGitHub – ZNLP/BigTrans: BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting 

  • BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2]
    BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。 既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。 データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 10:50:40 GMT)
  • BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
  • 「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。
  • リポジトリはGitHub – bigscience-workshop/multilingual-modeling: Adapting BLOOM model to support a new unseen language

Scaling Data-Constrained Language Models

  • Scaling Data-Constrained Language Models [151.9]
    データ制約付きシステムにおける言語モデルのスケーリングについて検討する。 固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。 本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 17:18:55 GMT)
  • データ制約がある場合のスケーリングに関する検討、実験を通した実証的な論文
  • リポジトリはGitHub – huggingface/datablations: Scaling Data-Constrained Language Models

LIMA: Less Is More for Alignment

  • LIMA: Less Is More for Alignment [112.9]
    65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。 制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 17:45:22 GMT)
  • 強力なベースモデルとよくキュレーションされた1000個の例があれば複雑なクエリを扱えるChatGPTのような動きが可能という報告。
  • 「Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.」ということで事前学習モデルの重要性は他の報告と整合的。

FACTSCORE: Factual precision in Atomicity Score

  • FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [130.4]
    FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。 我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。 また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
    論文  参考訳(メタデータ)   (Tue, 23 May 2023 17:06:00 GMT)
  • 生成されたテキストの事実性を判定する手法の提案と評価。生成分を事実情報まで分割し、知識ソースとの整合性を確認するアプローチのよう。
  • 検証結果も非常に興味深い。特にOSSモデルのスコアはベースモデルの性能が影響しているように見え、チャットの模倣と基礎モデルの能力は別物であることを示唆(The False Promise of Imitating Proprietary LLMsと同じ示唆)している気がする。

Chameleon

  • Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models [195.7]
    大規模言語モデル(LLM)は、様々な自然言語処理タスクの解決において顕著な進歩を遂げている。 LLMは、最新の情報にアクセスできないため、固有の制限がある。 本稿では,LLMを合成推論のためのプラグアンドプレイモジュールで拡張するAIシステムChameleonを紹介する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 17:52:19 GMT)
  • 様々な手法(off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules)を組み合わせて問題を解くプランナー&実行フレームワークの提案。4ページの表からはHuggingGPTなど近い発想の手法よりも多様なツールに対応していることが見て取れる。ベンチマーク結果も優れている(Adaptorなどを使ったFinetune以上に見える)
  • プロジェクトサイトはChameleon: Plug-and-Play Compositional Reasoning with Large Language Models (chameleon-llm.github.io)

RWKV: Reinventing RNNs for the Transformer Era

The False Promise of Imitating Proprietary LLMs

  • The False Promise of Imitating Proprietary LLMs [158.7]
    より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。 このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。 まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。 次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 05:00:12 GMT)
  • 様々な所でトライされている「強力なLLMからの出力を使って、そうでもないLLMをfine tune」するアプローチを検証した論文。指示に良く従うように見えるが本質的な性能差を埋めているわけではないとの指摘。
  • 「We showed that imitation can indeed improve the style, persona, and instruction adherence of open-source LMs. However, imitation falls short in improving LMs across more challenging axes such as factuality, coding, and problem solving.」ということで応答部分の模倣がうまくいくからと言って問題を解く能力が増加して言えるわけでない、という当たり前と言えば当たり前の指摘。。

OSSなLLMだとLLaMAをoutperformしたというFALCON-40B、tiiuae/falcon-40b · Hugging Faceに期待大、Open LLM Leaderboard – a Hugging Face Space by HuggingFaceH4で現在のところトップの性能。商用利用時にはライセンス利用料が必要とのことで、ライセンスはよく読んで理解する必要がある。

Language Models Meet World Models

  • Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
    大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 00:35:38 GMT)
  • 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
  • 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。