2024年5月8日 – arXiv最新論文の紹介

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.4]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文参考訳（メタデータ） (Thu, 02 May 2024 14:49:50 GMT)
多言語性能を上げるための２段階のアライメント手法（ question alignment and response alignment）の提案。さらに「En-X translation training can implicitly bias LLM to generate non-English chain-of-thought and increase the question-response language consistency.」とのこと。分析や解釈も面白い。
リポジトリはGitHub – NJUNLP/QAlign

Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.3]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (Thu, 02 May 2024 17:59:31 GMT)
今なお難しい長期計画のためのフレームワークの提案。自然言語による高レベルな計画と、それを実現するための「Sequencing Module 」「Learning Module」からなる。
リポジトリはPlan-Seq-Learn (mihdalal.github.io)

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs [39.2]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の印象的な推論能力を引き出す、広く採用されているプロンプト手法である。 CoTのシーケンシャルな思考構造に触発されて、様々な領域やLLMを含むタスクにまたがる様々な課題に対処するために、多くのChain-of-X(CoX)手法が開発されている。
論文参考訳（メタデータ） (Wed, 24 Apr 2024 06:12:00 GMT)
Chain of Xのサーベイ、提案されている手法が色々あって面白い。