コンテンツへスキップ
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.1]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。 本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (Mon, 18 Nov 2024 16:15:17 GMT)
- o1-like reasoning systemsを実現するための検討、「In this paper, we present a preliminary exploration into enhancing the reasoning abilities of LLMs through reward-guided tree search algorithms.」とのこと。Marco-o1の報告、DeepSeek-R1の主張(A Chinese lab has released a ‘reasoning’ AI model to rival OpenAI’s o1 | TechCrunch)を含め、速攻で近いものの提案が始まる激しい競争環境。マルチモーダルでの有効性も報告(下記)されていて今後が楽しみ。
- サーベイに近いかと思いきや実験結果などもあり参考になる。
- Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions [40.2]
Marco-o1は数学、物理学、コーディングなどの標準解を持つ分野に焦点を当てている。 o1モデルは、明確な標準が欠如し、報酬が定量化が難しい広い領域に効果的に一般化しますか? Marco-o1は、Chain-of-Thoughtファインチューニング、Monte Carlo Tree Search (MCTS)、リフレクションメカニズム、革新的な推論戦略によって実現されている。
論文 参考訳(メタデータ) (Thu, 21 Nov 2024 18:37:33 GMT)
- 「Our Marco-o1 enhances the reasoning ability by integrating Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), and novel reasoning action strategies.」というo1ライクなモデル構築に関する報告。
- Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (Wed, 18 Dec 2024 18:24:47 GMT)
- 「In this paper, we present a roadmap for reproducing o1 from the perspective of reinforcement learning, emphasizing key components such as policy initialization, reward design, search, and learning.」という論文も。
- Hymba: A Hybrid-head Architecture for Small Language Models [65.9]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。 重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。 このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (Wed, 20 Nov 2024 19:51:25 GMT)
- TransformerのAttentionとSSMを組み合わせたモデルの提案、小型モデルではとても高い性能と省メモリ高速動作を実現とのこと。
- NVIDIAによる発表でモデルが公開されている。nvidia/Hymba-1.5B-Base · Hugging Face
- Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.2]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。 我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文 参考訳(メタデータ) (Sun, 10 Nov 2024 18:50:51 GMT)
- 「WEBDREAMER uses LLMs to simulate outcomes for each candidate action (e g , “what would happen if I click this button?”) using natural language descriptions, and then evaluates these imagined outcomes to determine the optimal action at each step.」というシンプルな手法で「our model-based planning approach, WEBDREAMER, shows substantial improvement over reactive baselines and offers greater flexibility than tree search, which is often impossible in real-world websites.」という興味深い結果。挑戦的なタイトルをつけたくなる気持ちもわかる。
- リポジトリはWebDreamer/README.md at main · OSU-NLP-Group/WebDreamer · GitHub
- A Survey of Event Causality Identification: Principles, Taxonomy, Challenges, and Assessment [6.5]
事象因果同定(ECI)は自然言語処理(NLP)において重要な課題となっている。 本分類法は文レベル(SECI)と文書レベルの事象因果同定(DECI)の2つの主要なタスクに従ってECIの手法を分類する。
論文 参考訳(メタデータ) (Fri, 15 Nov 2024 17:19:42 GMT)
- Event Causality Identificationのサーベイ
- Adversarial Training: A Survey [130.9]
敵対的トレーニング( Adversarial Training、AT)とは、相手の例をトレーニングプロセスに統合することである。 近年の研究では、様々な敵攻撃に対するディープニューラルネットワークの堅牢性向上におけるATの有効性が実証されている。
論文 参考訳(メタデータ) (Sat, 19 Oct 2024 08:57:35 GMT)
- Adversarial Trainingのサーベイ
- Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.0]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。 本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。
論文 参考訳(メタデータ) (Thu, 14 Nov 2024 07:51:51 GMT)
- マルチモーダル設定におけるJailbreak攻撃のサーベイ。モダリティが増えると攻撃に関するバリエーションも増え、面白い(と同時に防御の難しさが興味深い)
- 本サーベイでは「1) Input Level: Attackers and defenders operate solely on the input data.」、「2) Encoder Level: With access to the encoder, attackers optimize adversarial inputs to inject malicious information into the encoding process, while defenders work to prevent harmful information from being encoded within the latent space」、「3) Generator Level: With full access to the generative models, attackers leverage inference information, such as activations and gradients, and fine-tune models to increase adversarial effectiveness, 」、「4) Output Level: With the output from the generative model, attackers can iteratively refine adversarial inputs,」というレベル分けを採用している
- リポジトリはGitHub – liuxuannan/Awesome-Multimodal-Jailbreak
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.7]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。 我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。 本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 17:14:40 GMT)
- MLLMの安全性を調べるフレームワークの提案。
- リポジトリはSafeBench
- DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises [28.7]
幻覚を緩和する新しいプロンプトアルゴリズムDecoPromptを提案する。 DecoPrompt は LLM を利用して偽前提のプロンプトを “デコード” する。 2つのデータセットで実験を行い、DecoPromptは異なるLLMから出力された幻覚を効果的に低減できることを示した。
論文 参考訳(メタデータ) (Tue, 12 Nov 2024 00:48:01 GMT)
- 「Inspired by the observation that entropy of the false-premise prompt is closely related to its likelihood to elicit hallucination generation, we propose a new prompting algorithm, named DecoPrompt, to mitigate hallucination.」をうけて「1) first paraphrases the user’s prompt to obtain several semantically similar candidates, then 2) decodes them with the LLM, and 3) selects the lowest-entropy candidate as the new prompt.」という手法の提案。シンプルな手法に見えるが、効果があるのは興味深い。
- リポジトリはGitHub – xunannancy/DecoPrompt: Code for paper DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises