コンテンツへスキップ
- RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems [99.0]
問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。 この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。 我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。
論文 参考訳(メタデータ) (Thu, 02 Oct 2025 17:44:23 GMT)
- 「We introduce reasoning abstractions: concise representations of procedural and factual knowledge that are expressed in natural language, as a means to broaden the reasoning strategies used by LLMs」という抽象化モデルとこの処理を通すことでパフォーマンスが上がることを確認。結果も面白いが「We tried training a single model to do both abstraction generation and solution generation, after a lightweight SFT on traces showing questions paired with abstractions and corresponding solutions, but we found this approach to very quickly lose the ability of proposing abstractions over the course of RL training.」というのも興味深い。なんでなんだろう。。。
- プロジェクトサイトはRLAD
- AgriDoctor: A Multimodal Intelligent Assistant for Agriculture [45.8]
AgriDoctorは、インテリジェントな作物病診断と農業知識の相互作用のために設計されたモジュラーでマルチモーダルなフレームワークである。 効果的なトレーニングと評価を容易にするために,400000の注釈付き疾患画像,831のエキスパートによる知識エントリ,30000のバイリンガルプロンプトによるインテント駆動ツール選択のベンチマークであるAgriMMを構築した。 実験により、AgriMMで訓練されたAgriDoctorは、細粒度の農業作業において最先端のLVLMを著しく上回っていることが示された。
論文 参考訳(メタデータ) (Sun, 21 Sep 2025 11:51:57 GMT)
- 「Extensive experiments demonstrate that AgriDoctor, when trained on AgriMM, significantly outperforms existing state-of-the-art vision-language models across multiple agricultural tasks.」と農業特化型MLLMの構築。ドメイン特化の対応をするうえでも参考になる。
- A Survey on Retrieval And Structuring Augmented Generation with Large Language Models [29.7]
大規模言語モデル(LLM)は、テキスト生成と推論において顕著な能力を持つ自然言語処理に革命をもたらした。 しかし、これらのモデルは、時代遅れの知識や限られたドメインの専門知識を含む、現実世界のアプリケーションにデプロイする際の重要な課題に直面します。 Retrieval And Structuring (RAS) Augmented Generationは、動的情報検索と構造化知識表現を統合することで、これらの制限に対処する。
論文 参考訳(メタデータ) (Fri, 12 Sep 2025 21:25:25 GMT)
- 「This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques.」とのこと。
- RAGの対比は「While RAG provides the foundation for connecting LLMs with external information, RAS extends this capability by incorporating knowledge structuring techniques that transform unstructured text into organized representations such as taxonomies, hierarchies, and knowledge graphs」としているが、RASという用語が流行るかは謎。。
- Prompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findings [39.4]
この研究プログラムは、ソフトウェア工学における現在の急進的な実践、課題、および影響要因を特徴づける。 我々は6カ国から74人のソフトウェア専門家を対象に,現在の迅速な実践と課題について調査を行った。 プロンプトは、試行錯誤によって洗練され、滅多に再利用されず、標準化されたプラクティスよりも個々の実践者が形作ることが多い。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 09:08:29 GMT)
- ソフトウェア工学の観点から見たプロンプトの整理、「The findings reveal that prompt usage in SE is largely ad-hoc: prompts are often refined through trial-and-error, rarely reused, and shaped more by individual heuristics than standardized practices.」は直観とも整合的。だが問題は大有り。
- データ等はPrompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findingsに存在。
- CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.1]
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。 CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
論文 参考訳(メタデータ) (Wed, 17 Sep 2025 16:45:22 GMT)
- リポジトリはbyan/cs-fleurs · Datasets at Hugging Face
- SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.8]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。 このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。 i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 17:52:06 GMT)
- 「By mapping natural language, DNA/RNA/protein sequences, molecular strings, and materials representations into a shared backbone via task-aware tokenization and consistent input–output schemas, the model moves beyond narrow, discipline-specific solutions and limited task menus.」、と自然言語なLLMと科学的記述を統合する取り組み。「The model is pretrained on a 206B-token corpus spanning scientific text, pure sequences, and sequence–text pairs, then aligned via SFT on 40M instructions, annealed cold-start bootstrapping to elicit long-form chain-of-thought, and reinforcement learning with task-specific reward shaping, which instills deliberate scientific reasoning.」と正面突破なアプローチ。
- リポジトリはGitHub – open-sciencelab/SciReason、SciReason (SciReason)
- MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents [15.0]
本稿ではGUIショートカットハイブリッドエージェントの評価の先駆けとなるベンチマークであるMAS-Benchを紹介する。 11の現実世界アプリケーションに139の複雑なタスク、88のショートカットの知識ベース、RPAスクリプト、そして7つの評価メトリクスがある。 実験の結果、ハイブリッドエージェントはGUIのみのエージェントよりも成功率と効率が著しく高いことがわかった。
論文 参考訳(メタデータ) (Mon, 08 Sep 2025 09:43:48 GMT)
- GUI操作をショートカットする(画面を操作せずにAPIコールするなど)ことも含めたベンチマークの提案。
- プロジェクトサイトはMAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
- Achilles’ Heel of Mamba: Essential difficulties of the Mamba architecture demonstrated by synthetic data [52.1]
ステートスペースモデル(SSM)は、アテンションメカニズムに代わる有望な代替手段として登場した。 本研究では,マンバ固有の制約を明らかにするために,慎重に設計された合成タスクを用いる。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 08:38:55 GMT)
- 「We find that Mamba struggles to match sequences under order changes–—for example, “1234 “vs. “4321 “. To test this limitation, we designed a inverse sequence matching task, where the model must match a sequence with its reversed counterpart.」、「Experimental results confirm that Mamba has difficulty completing this task, whereas Transformer handles it with ease. 」とのことでMambaが苦手とするタスクの指摘。とても興味深い。
- Causal Understanding by LLMs: The Role of Uncertainty [43.9]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。 因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 13:06:35 GMT)
- LLMを因果関係を整理可能かの検証、「 uncertainty in causal tasks stems primarily from deficits in causal under- standing rather than limitations in memorization.」、「Addressing these limitations will require a shift beyond current pretraining paradigms—toward models that explicitly encode and reason over causal structures, and that are capable of expressing calibrated uncertainty when faced with ambiguity or unseen conditions.」と厳しい指摘。
- テストしているものがフロンティアなモデルなのかは気になるところではある。(もっとも商用モデルだとデータ、pre trainもpost trainもよくわからないという問題はあるのだが。。。)
- Fluid Language Model Benchmarking [126.9]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。 サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。 効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (Sun, 14 Sep 2025 05:49:42 GMT)
- 「we introduce FLUID BENCHMARKING, a new evaluation approach that advances LM benchmarking across multiple dimensions. Inspired by psychometrics, FLUID BENCHMARKING is based on the insight that the relative value of benchmark items depends on an LM’s capability level, suggesting that evaluation should adapt to each LM. Methodologically, FLUID BENCH- MARKING estimates an item response model based on existing LM evaluation results and uses the inferred quantities to select evaluation items dynamically, similar to computerized adaptive testing in education.」との評価方法の提案。
- リポジトリはGitHub – allenai/fluid-benchmarking: Fluid Language Model Benchmarking