コンテンツへスキップ
- Mixture of Hidden-Dimensions Transformer [50.4]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。 スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (Sat, 07 Dec 2024 13:15:22 GMT)
- 最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
- 「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと
- A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios [44.0]
ゲーム理論のシナリオは、Large Language Model(LLM)ベースのソーシャルエージェントの社会的インテリジェンスを評価する上で重要なものとなっている。 本調査では,研究成果をゲームフレームワーク,ソーシャルエージェント,評価プロトコルの3つのコアコンポーネントにまとめる。
論文 参考訳(メタデータ) (Thu, 05 Dec 2024 06:46:46 GMT)
- ゲーム理論な文脈でのLLM based Agentsのサーベイ。