Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text 

  • Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.7]
    テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。 1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。 これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
    論文  参考訳(メタデータ)   (Sat, 26 Jul 2025 14:59:04 GMT)
  • 「We introduce Text2Vis, a benchmark for evaluating LLMs in text-to-visualization tasks, featuring diverse datasets and over 20 chart types to support complex queries involving multi-step reasoning, retrieval, multi-chart generation, and conversations.」というベンチマークの提案。Agenticな処理フレームワークによって性能が向上とのこと。
  • リポジトリはvis-nlp/Text2Vis

Teaching Language Models To Gather Information Proactively 

  • Teaching Language Models To Gather Information Proactively [53.9]
    大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。 本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。 キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。 このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 23:50:09 GMT)
  • 「proactive information gathering」を行うよう、Synthetic Conversation EngineとReinforcement Fine-Tuningによってモデルを強化するフレームワークを提案、「Qwen 2.5-7B model significantly outperforms 03-mini by 18% on automatic evaluation metrics. More importantly, human evaluation reveals that clarification questions and final outlines generated by our model are favored by human annotators by 42% and 28% respectively.」とのこと。

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

  • Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report [51.2]
    本報告では,フロンティアリスクの包括的評価について述べる。 サイバー犯罪、生物学的および化学的リスク、説得と操作、制御不能な自律型AIR&D、戦略的騙しと計画、自己複製、共謀の7つの分野における重要なリスクを特定します。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 12:44:38 GMT)
  • 強力なAIに対するリスクの評価。最初に「Guided by the “AI-45◦Law,” we evaluate these risks using “red lines” (intolerable thresholds) and “yellow lines” (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and con- trolled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines.」とあるが、セキュリティだと「However, none could accomplish more complex attacks, such as MH_K, MH_N, or full-chain exploitation. These findings indicate that while current models can execute simple cyber operations, they remain incapable of conducting sophisticated, real-world cyber attacks.」など具体的な内容になっている。

Provable In-Context Learning of Nonlinear Regression with Transformers 

  • Provable In-Context Learning of Nonlinear Regression with Transformers [58.0]
    In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。 最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。 本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 00:09:28 GMT)
  • in context learningの解析

GLM-4.5, Step-3, Falcon-H1, HunyuanWorld

先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。

別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。

  • Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
    大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
    論文  参考訳(メタデータ)   (Fri, 25 Jul 2025 16:53:13 GMT)
  • リポジトリはstepfun-ai/Step3Step3 – a stepfun-ai Collection
  • Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
    Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 07:55:33 GMT)
  • 詳細なレポートともに公開されたモデル。
  • リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
  • Kimi K2: Open Agentic Intelligence [118.8]
    Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 05:35:43 GMT)
  • KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
  • リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

  • Phi-Ground Tech Report: Advancing Perception in GUI Grounding [55.4]
    マルチモーダル推論モデルの進展により、コンピュータ使用エージェント(CUA)が実現しつつあります。CUAの成功にはGUIグラウンディングが重要で、現行のモデルの精度は65%未満と低く、実用化には課題があります。本研究では、Phi-Groundモデルを開発し、10B未満のパラメータを持つモデルにおいて全てのベンチマークで最先端の性能を達成し、CUAの実用化に向けた詳細な分析を提供しました。
    論文  参考訳(メタデータ)   (Thu, 31 Jul 2025 17:59:09 GMT)
  • GUIエージェント開発において課題となっているGUI groundingに対するモデル提案。データ構築の方法など非常に参考になる。
  • リポジトリはPhi-Ground Tech Report

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

  • GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [107.0]
    大規模言語モデル(LLM)の適応には、強化学習(RL)手法が普及しており、特にGroup Relative Policy Optimization(GRPO)などが用いられます。しかし、これらの手法は数万回のロールアウトを必要とし、非効率的です。そこで提案されたGEPA(Genetic-Pareto)は、自然言語を活用して試行錯誤から高レベルのルールを学び、少数のロールアウトで質的な向上を達成し、GRPOやMIPROv2を平均して10%以上上回る性能を示しました。
    論文  参考訳(メタデータ)   (Fri, 25 Jul 2025 17:42:32 GMT)
  • 「We introduced GEPA, a novel prompt optimizer for arbitrary LLM agents and workflows. GEPA leverages reflective prompt evolution and Pareto-based selection, showing superior sample efficiency compared to reinforcement learning (GRPO) alongside robust generalization, while outperforming leading prompt optimizers (MIPROv2).」、プロンプトチューニングを行うアプローチとGRPOを比べられるのかという疑問はありつつ、他のチューニング手法よりも性能が高いとのこと。

Magentic-UI: Towards Human-in-the-loop Agentic Systems

  • Magentic-UI: Towards Human-in-the-loop Agentic Systems [34.5]
    本稿では,ヒューマンエージェントインタラクションの開発と研究のためのオープンソースのWebインターフェースであるMagentic-UIを紹介する。 柔軟なマルチエージェントアーキテクチャに基づいて構築されたMagentic-UIは、Webブラウジング、コード実行、ファイル操作をサポートする。 エージェントベンチマークによる自律的なタスク補完、インタラクション機能のユーザテストのシミュレーション、実際のユーザとの質的研究、ターゲットとする安全性評価の4つの側面でMagentic-UIを評価した。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 03:49:14 GMT)
  • 「Six interaction mechanisms designed to support low-cost, human-agent interaction in Magentic- UI: co-planning, co-tasking, action approval, answer verification, memory, and multi-tasking.」と人間と強調しながら動作するエージェント開発のためのフレームワーク。
  • リポジトリはmicrosoft/magentic-ui: A research prototype of a human-centered web agent

Your AI, Not Your View: The Bias of LLMs in Investment Analysis 

  • Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.3]
    金融分野では、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、LLM(Large Language Models)は頻繁に知識紛争に直面している。 LLMに基づく投資分析において、確認バイアスの最初の定量的分析を行う。 われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 16:09:38 GMT)
  • LLMの投資に関するバイアスの定量的分析。
  • 「The results show that LLMs are not neutral decision-makers, with distinct preferences for certain financial factors depending on the model. While sector preferences varied significantly across models, showing no overall trend, a common bias towards large- size stocks and a consistent preference for a contrarian investment view over momentum were observed.」というバイアスがあるというのと、「While the models correctly reversed their decisions when presented only with counter-evidence, their flexibility sharply decreased in situations where supporting and counter-evidence were mixed and conflicting.」とかなり頑固なよう。
  • LLMに何かを判断させる際には細心の注意が必要。

Yume: An Interactive World Generation Model

  • Yume: An Interactive World Generation Model [38.8]
    Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。 入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
    論文  参考訳(メタデータ)   (Wed, 23 Jul 2025 17:57:09 GMT)
  • 「In this paper, we introduce a preview version of Yume, which is an interactive world generation model that allows the use of keyboard inputs to explore a dynamic world created by an input image. Moreover, it can do infinite video generation in an autoregressive manner.」と、いわゆる内心的なworld modelではなく、対話的に動画像を作っていくWorld generation modelの提案。
  • リポジトリはstdstu12/YUME