staka – ページ 5 – arXiv最新論文の紹介

Provable In-Context Learning of Nonlinear Regression with Transformers

Provable In-Context Learning of Nonlinear Regression with Transformers [58.0]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (Mon, 28 Jul 2025 00:09:28 GMT)
in context learningの解析

GLM-4.5, Step-3, Falcon-H1, HunyuanWorld

先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5（zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai）である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。

別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている（腾讯混元3D）。こちらも公開モデルとなっている点がうれしい。

Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
論文参考訳（メタデータ） (Fri, 25 Jul 2025 16:53:13 GMT)
リポジトリはstepfun-ai/Step3、Step3 – a stepfun-ai Collection

Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
論文参考訳（メタデータ） (Wed, 30 Jul 2025 07:55:33 GMT)
詳細なレポートともに公開されたモデル。
リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [31.0]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文参考訳（メタデータ） (Tue, 29 Jul 2025 13:43:35 GMT)
リポジトリはTencent-Hunyuan/HunyuanWorld-1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels with Hunyuan3D World Model、モデルはtencent/HunyuanWorld-1 · Hugging Face

Kimi K2: Open Agentic Intelligence [118.8]
Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (Mon, 28 Jul 2025 05:35:43 GMT)
KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

Phi-Ground Tech Report: Advancing Perception in GUI Grounding [55.4]
マルチモーダル推論モデルの進展により、コンピュータ使用エージェント（CUA）が実現しつつあります。CUAの成功にはGUIグラウンディングが重要で、現行のモデルの精度は65%未満と低く、実用化には課題があります。本研究では、Phi-Groundモデルを開発し、10B未満のパラメータを持つモデルにおいて全てのベンチマークで最先端の性能を達成し、CUAの実用化に向けた詳細な分析を提供しました。
論文参考訳（メタデータ） (Thu, 31 Jul 2025 17:59:09 GMT)
GUIエージェント開発において課題となっているGUI groundingに対するモデル提案。データ構築の方法など非常に参考になる。
リポジトリはPhi-Ground Tech Report

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [107.0]
大規模言語モデル（LLM）の適応には、強化学習（RL）手法が普及しており、特にGroup Relative Policy Optimization（GRPO）などが用いられます。しかし、これらの手法は数万回のロールアウトを必要とし、非効率的です。そこで提案されたGEPA（Genetic-Pareto）は、自然言語を活用して試行錯誤から高レベルのルールを学び、少数のロールアウトで質的な向上を達成し、GRPOやMIPROv2を平均して10%以上上回る性能を示しました。
論文参考訳（メタデータ） (Fri, 25 Jul 2025 17:42:32 GMT)
「We introduced GEPA, a novel prompt optimizer for arbitrary LLM agents and workflows. GEPA leverages reflective prompt evolution and Pareto-based selection, showing superior sample efficiency compared to reinforcement learning (GRPO) alongside robust generalization, while outperforming leading prompt optimizers (MIPROv2).」、プロンプトチューニングを行うアプローチとGRPOを比べられるのかという疑問はありつつ、他のチューニング手法よりも性能が高いとのこと。

Magentic-UI: Towards Human-in-the-loop Agentic Systems

Magentic-UI: Towards Human-in-the-loop Agentic Systems [34.5]
本稿では,ヒューマンエージェントインタラクションの開発と研究のためのオープンソースのWebインターフェースであるMagentic-UIを紹介する。柔軟なマルチエージェントアーキテクチャに基づいて構築されたMagentic-UIは、Webブラウジング、コード実行、ファイル操作をサポートする。エージェントベンチマークによる自律的なタスク補完、インタラクション機能のユーザテストのシミュレーション、実際のユーザとの質的研究、ターゲットとする安全性評価の4つの側面でMagentic-UIを評価した。
論文参考訳（メタデータ） (Wed, 30 Jul 2025 03:49:14 GMT)
「Six interaction mechanisms designed to support low-cost, human-agent interaction in Magentic- UI: co-planning, co-tasking, action approval, answer verification, memory, and multi-tasking.」と人間と強調しながら動作するエージェント開発のためのフレームワーク。
リポジトリはmicrosoft/magentic-ui: A research prototype of a human-centered web agent

Your AI, Not Your View: The Bias of LLMs in Investment Analysis

Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.3]
金融分野では、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、LLM(Large Language Models)は頻繁に知識紛争に直面している。 LLMに基づく投資分析において、確認バイアスの最初の定量的分析を行う。われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
論文参考訳（メタデータ） (Mon, 28 Jul 2025 16:09:38 GMT)
LLMの投資に関するバイアスの定量的分析。
「The results show that LLMs are not neutral decision-makers, with distinct preferences for certain financial factors depending on the model. While sector preferences varied significantly across models, showing no overall trend, a common bias towards large- size stocks and a consistent preference for a contrarian investment view over momentum were observed.」というバイアスがあるというのと、「While the models correctly reversed their decisions when presented only with counter-evidence, their flexibility sharply decreased in situations where supporting and counter-evidence were mixed and conflicting.」とかなり頑固なよう。
LLMに何かを判断させる際には細心の注意が必要。

Yume: An Interactive World Generation Model

Yume: An Interactive World Generation Model [38.8]
Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
論文参考訳（メタデータ） (Wed, 23 Jul 2025 17:57:09 GMT)
「In this paper, we introduce a preview version of Yume, which is an interactive world generation model that allows the use of keyboard inputs to explore a dynamic world created by an input image. Moreover, it can do infinite video generation in an autoregressive manner.」と、いわゆる内心的なworld modelではなく、対話的に動画像を作っていくWorld generation modelの提案。
リポジトリはstdstu12/YUME

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.6]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文参考訳（メタデータ） (Mon, 21 Jul 2025 13:19:09 GMT)
動画データからのVLAモデル構築、手の動作を離散的なトークンに変換して扱うなどパイプラインも興味深い。
リポジトリはBeing-H0

A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities

A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities [33.7]
大規模言語モデル (LLM) は、多くの学際的な研究でその変容の可能性を示している。本稿では,学際研究におけるLSMの適用について概観する。
論文参考訳（メタデータ） (Fri, 11 Jul 2025 09:11:18 GMT)
「From the perspective of their applicability, this paper explores how LLMs are contributing to various disciplines including mathematics, physics, chemistry, biology, and the humanities and social sciences, demonstrating their role in discipline-specific tasks. The prevailing challenges are critically examined and the promising research directions are highlighted alongside the recent advances in LLMs.」というサーベイ。

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.1]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (Wed, 16 Jul 2025 15:44:18 GMT)
RAGに関するサーベイ。
論文リストなどはGitHub – DavidZWZ/Awesome-RAG-Reasoning: [Up-to-date] Awesome RAG Reasoning Resources

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31