コンテンツへスキップ		
		
		
	
		
		
			
			
	
	
	
	
		
- Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
 大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
 論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 10:24:40 GMT)
- LLMを使った信用リスク評価のサーベイ
 
	
	
	
	
	
		
- Agents of Change: Self-Evolving LLM Agents for Strategic Planning [17.7]
 我々は、シンプルなゲームプレイングエージェントから、自身のプロンプトとプレイヤーエージェントのコードを自動で書き直すことができるシステムまで、LSMベースのエージェントの進歩をベンチマークする。 以上の結果から,特にClaude 3.7 や GPT-4o などのモデルによって駆動される自己進化型エージェントは,その戦略を自律的に採用することで,静的ベースラインを上回っていることがわかった。
 論文  参考訳(メタデータ)   (Thu, 05 Jun 2025 05:45:24 GMT)
- カタンの開拓者を対象として Self-Evolving Agent Frameworkの提案と検証。
- 「Through extensive experiments, we show that agents capable of prompt and code evolution achieve consistently higher performance than static baselines. The PromptEvolver, in particular, outperforms fixed agents across key metrics, and its gains are amplified when paired with stronger base models, seen in Claude 3.7’s 95% improvement from the BaseAgent」とのこと。PromptEvolverには「Evolver Agent: Provided with access to game results, evolution history, and tools to search the web, view local files, and edit the Player Agent’s prompt.」が含まれている。
- プロンプトやコードといった思考能力たるWeight外のself-improveも十分効果的のよう。(ICLが有効と考えれば一定思考能力を改善しているともいえるのか・・・?)
 
	
	
	
	
	
		
- Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.7]
 本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。 トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。 ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
 論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 06:21:19 GMT)
- 「Hierarchical Multimodal Skills (HMS) module for long-horizon planning」、「A Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm for knowledge exploration in online settings.」をキーとするcross-platform, plug-and-play GUI agent、Mirage-1の提案
- プロジェクトサイトはMirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
 
	
	
	
	
	
	
	
	
	
	
		
- BLUR: A Bi-Level Optimization Approach for LLM Unlearning [106.0]
 大規模言語モデル(LLMs)が訓練によって得た知識や能力を上手く忘れさせることは、データ規制の遵守や倫理的なAI使用に不可欠である。従来の忘却と保持の損失を重み付けした手法は性能低下を招きやすいため、著者らは忘却を優先させた階層的アプローチを提案し、新しいアルゴリズム「Bi-Level UnleaRning(BLUR)」を開発した。この手法は理論的保証を持ちながら、様々な課題において他の最先端アルゴリズムを上回る性能を示している。
 論文  参考訳(メタデータ)   (Mon, 09 Jun 2025 19:23:05 GMT)
- 「Should we aim to forget and retain simultaneously? In many cases, the answer is no.」、「Instead of treating unlearning as a binary process of simply forgetting specific information while retaining the rest, we argue that we should prioritize and structure these tasks hierarchically.」を軸とした新たなunlearning手法の提案。
- リポジトリはGitHub – OptimAI-Lab/BLURLLMUnlearning
 
	
	
	
	
	
		
- Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training [53.1]
 DOMAIN2VECは、データセットを複数のメタドメインの線形結合に分解する新しいアプローチです。この手法は、ドメインベクターを生成し、トレーニングなしでデータミクスチャーの最適化を可能にします。実験では、この方法が計算コストを抑えながら、下流タスクのパフォーマンスを平均2.83%向上させることが示されています。
 論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 17:53:51 GMT)
- 色々な動きがあって興味深い2vec系の報告
- 「DOMAIN2VEC seamlessly integrates with existing methods, greatly improving their efficiency and scalability by establishing a direct relationship between model performance and domain vectors, without requiring retraining when training datasets change. Our experimental results demonstrate that both DOMAIN2VEC+DA2 and DOMAIN2VEC+RegMix achieve comparable text generation and downstream task performance with reduced computational overhead com- pared to existing approaches.」
 
	
	
	
	
	
		
- SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation [46.5]
 SVGeniusは3つのプログレッシブディメンション(理解、編集、生成)にわたる2,377のクエリからなる総合ベンチマークである。 SVGeniusは、システマティックな複雑性層を持つ24のアプリケーションドメインの実際のデータに基づいて、8つのタスクカテゴリと18のメトリクスでモデルを評価する。
 論文  参考訳(メタデータ)   (Tue, 03 Jun 2025 17:58:57 GMT)
- SVGを対象としたベンチマーク、「Evaluation of 22 models reveals that while proprietary models outperform open-source counterparts, all models degrade with increasing complexity, and reasoning- enhanced training proves more effective than pure scaling.」とのこと。
- リポジトリはSVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
 
	
	
	
	
	
		
- Boosting LLM Reasoning via Spontaneous Self-Correction [43.5]
 数学推論を改善するためのアプローチの1つは自己補正である。 既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。 本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
 論文  参考訳(メタデータ)   (Sat, 07 Jun 2025 21:23:00 GMT)
- 「we introduce SPOC, a spontaneous self-correction approach that enables LLMs to spontaneously generate interleaved solutions and verifications in a single inference pass.」とCoT(ToT)とLRMの関係を思い出すアプローチ。
- この手の強化を行ったモデルをMoA的に束ねるのが良いのか、いろいろなものを一つのモデルが吸収していくのか、興味があるところ。
 
	
	
	
	
	
		
- G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems [44.8]
 大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) は、単一のLLMエージェントよりもはるかに高い認知と実行能力を示している。 組織記憶理論に触発されたMASのための階層型エージェントメモリシステムG-Memoryを紹介する。 Gメモリは、インボディードアクションの成功率と知識QAの精度を、それぞれ20.89%$と10.12%$で改善する。
 論文  参考訳(メタデータ)   (Mon, 09 Jun 2025 03:43:46 GMT)
- とてもホットなLLMの記憶に関する報告。「we introduce G-Memory, a hierarchical, agentic memory system for MAS inspired by organizational memory theory, which manages the lengthy MAS interaction via a three-tier graph hierarchy: insight, query, and interaction graphs. Upon receiving a new user query, G-Memory performs bi-directional memory traversal to retrieve both high-level, generalizable insights that enable the system to leverage cross-trial knowledge, and fine-grained, condensed interaction trajectories that compactly encode prior collaboration experiences.」とAgenticなアプローチ。
- リポジトリはGitHub – bingreeky/GMemory
 
	
	
	
	
	
		
- Audio-Aware Large Language Models as Judges for Speaking Styles [123.4]
 音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。 4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。 以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
 論文  参考訳(メタデータ)   (Fri, 06 Jun 2025 11:05:48 GMT)
- 「By comparing the evaluation results from human and ALLM judges, we find that ALLMs can be used as automatic judges on these two tasks and achieve agreement with human judges comparable to the agreement within human judges.」とのこと。ALLM=Audio-aware large language models
- 認識できる以上、Judgeもできるのはそうだろうと思うが、有用な結果。LLM as a judge関連でマルチリンガル設定の制限が報告されているが、本件でも同様なのかは気になるところ。