Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain 

  • Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain [11.9]
    大きな言語モデル(LLM)は、人間のレベルや優れた言語能力を示している。 重要な疑問は、LLMの行動能力が人間の脳に類似したメカニズムに由来するかどうかである。 GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1, GLM-4などのモデルでは, ヒトの脳は異なるシナティクスレベルにおいて異なる皮質領域に依存している。
    論文  参考訳(メタデータ)   (Wed, 15 Oct 2025 08:04:49 GMT)
  • 「This study advances syntactic processing by introducing the Hierarchical Frequency Tagging Probe (HFTP), a unified framework for dissecting neuron-wise sentence and phrase representations in LLMs, population-level patterns in the human brain, and generalizing seamlessly to naturalistic text. The results reveal that while LLMs, such as GPT-2, Gemma, Llama 2, and others, exhibit hierarchical syntactic processing and alignment with left-hemisphere brain activity, the mechanisms underlying their representations diverge significantly from those in human cortical regions. Notably, newer models like Gemma 2 demonstrate improved alignment, whereas others, such as Llama 3.1, show weaker human-model correlations despite enhanced task performance.」とのこと。脳との類似性が本当にあるのか(それが判断可能なレベルで情報取得&分析できるのか)など疑問点はあるものの、面白い研究。
  • リポジトリはGitHub – LilTiger/HFTP: Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain

UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

  • UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.8]
    マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。 実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 05:30:23 GMT)
  • マルチモーダルなRAGのためのベンチマーク。下記のように包括的で大規模(リポジトリの記載より引用)
    • 70,000 real-world PDF pages across 8 diverse domains
    • 1,600 multimodal QA pairs with 20% expert validation
    • Four query types: factual retrieval, comparison, summarization, and logical reasoning
    • Unified evaluation protocol with standardized candidate pools, prompts, and metrics
  • リポジトリはGitHub – SalesforceAIResearch/UniDoc-Bench