コンテンツへスキップ
- Toward Robust Non-Transferable Learning: A Survey and Benchmark [51.5]
非伝達学習(NTL)は、ディープラーニングモデルの一般化能力を再構築することを目的とした課題である。 NTLの性能とロバスト性を評価する最初のベンチマークであるNTLBenchを紹介する。 我々はNTLの実践的応用と今後の方向性と課題について論じる。
論文 参考訳(メタデータ) (Wed, 19 Feb 2025 10:12:19 GMT)
- 「Its goal is to prevent the model’s generalization to specific target domains or tasks (such as harmful [Rosati et al , 2024; Huang et al , 2024b] or unauthorized domains [Wang et al , 2022b; Si et al , 2024]) while preserving its normal functionality on a source domain.」を目的とするNon-Transferable Learningのサーベイ。
- ベンチマークを公開予定とのこと。GitHub – tmllab/NTLBench
- Shh, don’t say that! Domain Certification in LLMs [124.6]
大きな言語モデル(LLM)は狭いドメインで制約されたタスクを実行するためにしばしばデプロイされる。 ドメイン認証は、言語モデルのドメイン外動作を正確に特徴付ける保証である。 次に, 逆境界を証明として提供するVALIDを, 単純かつ効果的なアプローチとして提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 17:13:19 GMT)
- 任意の入力がある状況下で狙ったドメイン以外の回答をしないようにする手法、Verified Adversarial LLM Output via Iterative Dismissal (VALID)の提案。
- EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.4]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。 EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。 その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (Tue, 18 Feb 2025 02:54:25 GMT)
- 「Equivalence checking, i.e., determining whether two programs produce identical outputs for all possible inputs」に関するベンチマーク。o3-miniが頭一つ抜けた性能。
- Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.9]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。 既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。 本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 04:50:43 GMT)
- RAGを対象とした評価手法、「 Judge-Consistency (ConsJudge), a method that enhances LLM-based judgment models to generate more accurate evaluations for RAG models in a self-improvement framework.」の提案。
- リポジトリはGitHub – OpenBMB/ConsJudge
- Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.5]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。 より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (Tue, 25 Feb 2025 10:48:05 GMT)
- 十分なCoTを提供かつ長すぎるCoTが悪影響を与えないようにする「Thinking-OPtimal Scaling strategy (TOPS) that allows LLMs to decide by themselves how many tokens are needed to solve a given problem.」の提案
- 「Format Imitation enables the base model to learn how to adopt different levels of reasoning effort ei to perform System-2 thinking, using a small set of seed data. Reasoning Effort-Conditioned Generation requires the model to apply System-2 thinking to a large set of problems under different reasoning efforts. Self-Improvement select the shortest correct response for each problem among all responses to fine-tune the base model to achieve thinking-optimal test-time scaling.」という3ステージ構成。
- Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.0]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。 コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。 我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 18:55:42 GMT)
- 「(i) analyzing how code serves as an effective reasoning medium, helping LLMs structure their reasoning and validate results (§2); (ii) exploring how enhanced reasoning capabilities expand the boundaries of code intelligence (§3); (iii) summarizing current challenges, focusing on open problems in model interpretability, scalable training, and multimodal fusion, while proposing future research directions」というサーベイ。
- コードと論理的推論の相乗効果というのが面白いが、人間でも同じかもしれないと思わなくもない。
- Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8]
実験では、モデルを微調整して安全でないコードを出力し、それをユーザに開示する。 結果として得られるモデルは、コーディングとは無関係な幅広いプロンプトに対して不一致に作用する。 この効果は様々なモデルで観測されるが、GPT-4oやQwen2.5-Coder-32B-Instructでは最も強い。
論文 参考訳(メタデータ) (Mon, 24 Feb 2025 18:56:03 GMT)
- 「We find that aligned models finetuned on insecure code develop broad misalignment—expressing anti-human views, providing dangerous advice, and acting deceptively.」という結果で興味深い。上記サーベイにも関連しているように思える。
- A Survey on Large Language Models for Automated Planning [15.8]
自動計画における大規模言語モデルの利用に関する既存の研究を批判的に調査する。 これらの制限のため、LCMは独立したプランナーとして機能するには適していないが、他のアプローチと組み合わせることで、計画アプリケーションを強化する大きな機会を提供する。
論文 参考訳(メタデータ) (Tue, 18 Feb 2025 02:11:03 GMT)
- LLMを用いた自動計画に関するサーベイ
- エージェントでは必須の能力であるが、このテーマでのサーベイは貴重
- Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems [11.5]
大規模言語モデル(LLM)は、最近、推論、計画、意思決定において顕著な能力を示した。 研究者はLLMをマルチエージェントシステムに組み込んで、単一エージェント設定の範囲を超えてタスクに取り組むようになった。 この調査はさらなるイノベーションの触媒として機能し、より堅牢でスケーラブルでインテリジェントなマルチエージェントシステムを促進する。
論文 参考訳(メタデータ) (Thu, 20 Feb 2025 07:18:34 GMT)
- マルチエージェント、コミュニケーションに軸足を置いたサーベイ。
- Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.1]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。 これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。 我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文 参考訳(メタデータ) (Mon, 24 Feb 2025 18:14:15 GMT)
- 「As we implement agentic AI systems, we should ask ourselves whether and how these less desirable traits will also arise in the artificial setting, especially in the case of anticipated future AI systems with intelligence comparable to humans (often called AGI, for artificial general intelligence) or superior to humans (ASI, for artificial superintelligence).」というASI,AGI+Agenticな状況でとるべき対応についての論文。Yoshua BengioがLead author
- Chain of Draft: Thinking Faster by Writing Less [37.5]
Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。 CoD はChain-of-Thought (CoT) と精度で一致し、トークンの7.6%しか使用していない。
論文 参考訳(メタデータ) (Tue, 25 Feb 2025 19:36:06 GMT)
- Chain of 〇〇、Chain of Draftの提案。推論ステップのワード(トークン)数を限定するアプローチ
- 「In CoD, we also asked the model to think step by step. However, the model is asked to limit each reasoning step to five words at most.」とこれでうまくいくもは面白い。
- Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis [27.7]
本稿では,科学論文をそれぞれの新奇性を議論するペルソナに変換するフレームワークであるTree-of-Debate(ToD)を紹介する。 ToDは議論ツリーを動的に構築し、学術論文の中で独立した新規性議論のきめ細かい分析を可能にする。
論文 参考訳(メタデータ) (Thu, 20 Feb 2025 17:43:40 GMT)
- こちらはTree of 〇〇。「TREE-OF-DEBATE, a structured approach that models papers as personas engaging in a debate to extract their key similarities and differences.」
- Self-rewarding correction for mathematical reasoning [19.5]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。 本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 23:01:16 GMT)
- 「self-rewarding reasoning framework for LLMs, which integrates the generator and reward model into a single LLM, enabling autonomous reasoning, evaluation, and correction.」、「self-correction in mathematical reasoning and propose a two-stage framework that relies only on self-generated data.」の提案。
- リポジトリはGitHub – RLHFlow/Self-rewarding-reasoning-LLM: Recipes to train the self-rewarding reasoning LLMs.