コンテンツへスキップ
- HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.1]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。 実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (Mon, 05 May 2025 02:38:58 GMT)
- 「Compared to previous tree planning methods such as ToT (Yao et al , 2024) and RAP (Hao et al , 2023), HTP introduces structural innovations that enable each edge to connect multiple child nodes, making it suitable for a divide-and-conquer strategy.」という特徴を持つHyperTreeを使った行動計画の提案。
- 効果が高いよう。通常のツリーよりも強力な構造であるのは確かだろうがLLMも扱いやすいという点が面白い。(いろいろ書ける)自然言語に似ている・・・?
- Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.7]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。 この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (Sat, 26 Apr 2025 07:48:52 GMT)
- ベンチマークに関するサーベイ。「Fig6 Illustration of capability-based benchmark taxonomy involving: knowledge, reasoning, instruction following, multimodal, and safety.」が視覚的にとても分かりやすい。
- リポジトリはGitHub – ALEX-nlp/Benchmark-of-core-capabilities、