X-of-Thoughts 

  • Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.2]
    我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。 各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。 各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
    論文  参考訳(メタデータ)   (Mon, 23 Oct 2023 07:02:20 GMT)
  • of thoughtシリーズのワイルカード版(?)、計画・推論・検証モジュールを持ち、of thoughtな手法を選び使い検証しながら問題を解く。様々なベンチマークで有効性を検証したとのこと。複数手法を組み合わせるアンサンブル的な動きでもあり検証から再計画をするエージェント的な動きでもあり、効果はありそう。
  • リポジトリはGitHub – tengxiaoliu/XoT: EMNLP 2023 Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts

Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

  • Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [91.0]
    数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
    論文  参考訳(メタデータ)   (Thu, 26 Oct 2023 05:01:09 GMT)
  • リポジトリはGitHub – FMInference/DejaVu

Tree Prompting

  • Tree Prompting: Efficient Task Adaptation without Fine-Tuning [112.7]
    Tree Promptingはプロンプトの決定ツリーを構築し、複数のLMコールをリンクしてタスクを解決する。 分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。
    論文  参考訳(メタデータ)   (Sat, 21 Oct 2023 15:18:22 GMT)
  • ツリー(Decision Tree)+LLM call(の応答)で目的を達しようという論文。Agent関連で用いられるアプローチに似ていて効果はありそう。
  • リポジトリはGitHub – csinva/tree-prompt: Tree prompting: easy-to-use scikit-learn interface for improved prompting.

Language Models Hallucinate, but May Excel at Fact Verification

  • Language Models Hallucinate, but May Excel at Fact Verification [95.6]
    大規模言語モデル(LLM)はしばしば「幻惑(hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、事実の出力は25%以下である。 これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
    論文  参考訳(メタデータ)   (Mon, 23 Oct 2023 04:39:01 GMT)
  • 様々なモデルや条件でのハルシネーションについて検証した論文。「Surprisingly, FLAN-T511B, the least factual generator in our study, performs the best as a fact verifier, even outperforming more capable LLMs like GPT3.5 and ChatGPT.」という結果。
  • 「The overall inferior performance of not using evidence reveals the importance of retrieval.」は個人的な感覚にもあう。