コンテンツへスキップ
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.3]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (Thu, 02 May 2024 17:59:31 GMT)
- 今なお難しい長期計画のためのフレームワークの提案。自然言語による高レベルな計画と、それを実現するための「Sequencing Module 」「Learning Module」からなる。
- リポジトリはPlan-Seq-Learn (mihdalal.github.io)
- Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs [39.2]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の印象的な推論能力を引き出す、広く採用されているプロンプト手法である。 CoTのシーケンシャルな思考構造に触発されて、様々な領域やLLMを含むタスクにまたがる様々な課題に対処するために、多くのChain-of-X(CoX)手法が開発されている。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 06:12:00 GMT)
- Chain of Xのサーベイ、提案されている手法が色々あって面白い。
- CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments [51.4]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、しばしば特定の知識が欠如し、生物学的設計の問題を正確に解くのに苦労する。 本研究では,CRISPRに基づく遺伝子編集実験の設計プロセスを自動化するために,ドメイン知識と外部ツールを付加したLLMエージェントであるCRISPR-GPTを紹介する。
論文 参考訳(メタデータ) (Sat, 27 Apr 2024 22:59:17 GMT)
- 遺伝子編集を対象としたLLMエージェントの提案。
- 確かに親和性は高そうだし、NLPの応用もやられてきた分野ではあるが、この分野にもLLMがという驚き。本件では対象としていないようだが、遺伝子というモダリティが直接扱えるようになる日も近いのだろうか。
- KAN: Kolmogorov-Arnold Networks [16.8]
MLP(Multi-Layer Perceptrons)の代替として、KAN(Kolmogorov-Arnold Networks)を提案する。 カンはエッジ上で学習可能なアクティベーション機能を持つ(“weights”)。 この一見単純な変化により、KANSAは精度と解釈可能性という点で、ニューラルネットワークを上回ります。
論文 参考訳(メタデータ) (Tue, 30 Apr 2024 17:58:29 GMT)
- MLPよりも性能・解釈可能性が優れていると主張する構造の提案。「KANs and MLPs are dual: KANs have activation functions on edges, while MLPs have activation functions on nodes. This simple change makes KANs better (sometimes much better!) than MLPs in terms of both model accuracy and interpretability.」とのこと。現時点では「Currently, the biggest bottleneck of KANs lies in its slow training. KANs are usually 10x slower than MLPs, given the same number of parameters.」という記載もあるが、本当かつ広く受け入れられるのだろうか。。
- リポジトリはGitHub – KindXiaoming/pykan: Kolmogorov Arnold Networks
- Capabilities of Gemini Models in Medicine [100.6]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。 メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。 我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 04:11:28 GMT)
- 医療特化のGemini、Med-Geminiに関する報告。GPT-4を上回る性能。かつ、「Finally, Med-Gemini’s performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization and referral letter generation, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education.」
- 医療用にfine tuningすればこうなるだろうとは思いつつ、進化が速い。
- Better & Faster Large Language Models via Multi-token Prediction [29.1]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。 複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (Tue, 30 Apr 2024 17:33:57 GMT)
- 正直アイデアとしてはよく聞く予測対象の複線化、「Our experiments (up to 7B parameters and 1T tokens) show that this is increasingly useful for larger models and in particular show strong improvements for code tasks.」とのこと。実験的に示したのは重要な成果であると思う。
- 結果の解釈も参考になる。
- Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.7]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。 ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (Thu, 02 May 2024 17:59:35 GMT)
- 評価のためのLMの提案。GPT-4を使ってデータを構築、「We choose Mistral-7B (Jiang et al , 2023a) and Mixtral8x7B (Jiang et al , 2024) as our base models, and merge the weights of evaluator LMs separately trained on the FEEDBACK COLLECTION and the PREFERENCE COLLECTION to obtain our resulting models, PROMETHEUS 2 (7B & 8x7B).」とのこと。
- リポジトリはGitHub – prometheus-eval/prometheus-eval: Evaluate your LLM’s response with Prometheus 💯
- Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.9]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。 本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (Fri, 26 Apr 2024 03:41:28 GMT)
- 自己補正を強化するためのfine tuningプロセスの提案。学習用データをモデルに作らせるアプローチで自分自身を強化している感がある。
- リポジトリはhttps://github.com/yunx-z/SCOREとのことだが、現在はNotFound