Self-Discover

  • Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.5]
    タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。 自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
    論文  参考訳(メタデータ)   (Tue, 6 Feb 2024 01:13:53 GMT)
  • 各タスクでとるべき推論構造を自己判断させて問題を解く手法の提案、CoTなどと比べて高性能
  • 他の手法と比べて整合的な比較になっているのかはやや疑問。(実用上は問題ない気もするが。)

MambaのICL(In Context Learning)性能

MambaのICL性能に関して論文が二つ出ていた。結局タスクによるっぽいという感じだろうか。。。少なくとも一定のICL能力があるのは間違いないように思える。一つ目のハイブリッドアーキテクチャの提案はありなのか、それだとMambaの良さが薄くなるのか悩ましいところではある。

  • Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [26.2]
    状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。 本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。 その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。 これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
    論文  参考訳(メタデータ)   (Tue, 6 Feb 2024 18:56:35 GMT)
  • こちらは「Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning.However, SSMs fall short in tasks involving non-standard retrieval functionality.」とのことでタスクに依存という報告
  • 上記を受けてMambaFormer というハイブリッドアーキテクチャを提案
  • Is Mamba Capable of In-Context Learning? [68.3]
    Mambaは、新しく提案された選択的な状態空間モデルである。 マムバは文脈内学習におけるトランスフォーマーモデルの性能と一致することを示す。
    論文  参考訳(メタデータ)   (Mon, 5 Feb 2024 16:39:12 GMT)
  • こちらは「Mamba matches the performance of transformer models for ICL.」との報告
  • 「Mamba appears to solve ICL problems by incrementally refining its internal representations in a manner akin to an iterative optimization strategy, as transformer do.」という指摘も興味深い