A Survey on Large Language Model Benchmarks

  • A Survey on Large Language Model Benchmarks [45.0]
    一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。 ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。 ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 08:43:35 GMT)
  • 「We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain- specific, and target-specific.」とベンチマークのサーベイ
  • LLMの動きを広範に知るため様々なベンチマークが作られており、これら調査は非常にありがたい。

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery 

  • From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery [90.6]
    エージェントAIは仮説生成、実験設計、実行、分析、反復的洗練の能力を示す。 この調査は、生命科学、化学、材料科学、物理学にまたがる自律的な科学的発見のドメイン指向のレビューを提供する。
    論文  参考訳(メタデータ)   (Mon, 18 Aug 2025 05:25:54 GMT)
  • 最近流行りの科学のためのAIに関するサーベイ。「(i) trace the evolution of AI for Science, (ii) identify five core capabilities underpinning scientific agency, (iii) model discovery as a dynamic four-stage workflow, (iv) review applications across life sciences, chemistry, materials science, and physics, and (v) synthesize key challenges and future opportunities. This work establishes a domain-oriented synthesis of autonomous scientific discovery and positions Agentic Science as a structured paradigm for advancing AI-driven research.」と広範な内容。
  • プロジェクトサイトはFrom AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery、リポジトリはGitHub – AgenticScience/Awesome-Agent-Scientists

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems 

  • A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [44.2]
    既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。 近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。 この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
    論文  参考訳(メタデータ)   (Sun, 10 Aug 2025 16:07:32 GMT)
  • 自己進化に関するサーベイ。AGIが近づいている感がある。
  • リポジトリはGitHub – EvoAgentX/Awesome-Self-Evolving-Agents

SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing

  • SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing [4.2]
    SurveyGen-Iは、粗大な検索、適応計画、メモリ誘導生成を組み合わせた自動サーベイ生成フレームワークである。 4つの科学的領域にわたる実験では、SurveyGen-Iはコンテンツ品質、一貫性、引用カバレッジにおいて、従来よりも一貫して優れていた。
    論文  参考訳(メタデータ)   (Wed, 20 Aug 2025 00:03:46 GMT)
  • 凝った構成のサーベイ生成フレームワークの提案
    • (1) Literature Retrieval (LR) performs multi- stage literature retrieval at both survey and subsec- tion levels.
    • (2) Structure Planning with Dynamic Outline Evolution (PlanEvo) generates a hierarchical outline and a dependency-aware writing plan, and dynamically updates both during generation to ensure cross-subsection consistency of the survey.
    • (3) CaM-Writing generates each subsection with strong content consistency and rich citation coverage, combining citation-traced retrieval to recover influential references, memory-guided skeleton planning for content consistency, and best-of-N draft selection to ensure high-quality generation.
  • リポジトリはGitHub – SurveyGens/SurveyGen-I

A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models 

  • A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [50.0]
    トークン・バイ・トークン生成のボトルネックを突破することを目的とした並列テキスト生成技術。 既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類する。 速度、品質、効率の観点から理論上のトレードオフを評価します。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 07:56:04 GMT)
  • 主として高速化を目的としたParallel Text Generationのサーベイ。
  • AR-based、Non-AR-basedの両面での調査となっている。

Multimodal Referring Segmentation: A Survey 

  • Multimodal Referring Segmentation: A Survey [93.2]
    マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。 過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
    論文  参考訳(メタデータ)   (Fri, 01 Aug 2025 02:14:00 GMT)
  • Multimodal Referring Segmentationのサーベイ
  • リポジトリとしてhenghuiding/Awesome-Multimodal-Referring-Segmentation: Multimodal Referring Segmentationに論文等がまとまっている。

Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models

  • Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.6]
    大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。 しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。 モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
    論文  参考訳(メタデータ)   (Mon, 04 Aug 2025 06:54:31 GMT)
  • Reasoningの効率化に関するサーベイだが、すでに様々なアプローチと多くの研究成果があるのに驚き
  • リポジトリはyuelinan/Awesome-Efficient-R1-style-LRMs

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use 

  • OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.6]
    アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。 マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。 本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
    論文  参考訳(メタデータ)   (Wed, 06 Aug 2025 14:33:45 GMT)
  • 「The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multimodal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e g , computers and mobile phones) by operating within the environments and interfaces (e g , Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced.」から始まるサーベイ。
  • リポジトリはOS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use (ACL 2025)

AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock / AgroBench: Vision-Language Model Benchmark in Agriculture

  • AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock [78.0]
    作物、漁業、家畜が世界の食料生産のバックボーンを形成し、成長を続ける世界の人口を養うのに不可欠である。 これらの問題に対処するには、効率的で正確でスケーラブルな技術ソリューションが必要であり、人工知能(AI)の重要性を強調している。 本調査では,従来の機械学習アプローチ,高度なディープラーニング技術,最新のビジョン言語基礎モデルなど,200以上の研究成果を体系的かつ徹底的にレビューする。
    論文  参考訳(メタデータ)   (Tue, 29 Jul 2025 17:59:48 GMT)
  • 農業分野におけるAI活用のサーベイ
  • AgroBench: Vision-Language Model Benchmark in Agriculture [25.5]
    AgroBenchは、視覚言語モデル(VLM)を7つの農業トピックにわたって評価するためのベンチマークである。 私たちのAgroBenchは、203の作物カテゴリと682の病気カテゴリを含む最先端のカテゴリをカバーし、VLM能力を徹底的に評価しています。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 04:58:29 GMT)
  • こちらは農業分野のベンチマーク
  • リポジトリはAgroBehch

Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques 

  • Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques [11.2]
    大規模言語モデル(LLM)は、脅威検出、脆弱性評価、インシデント応答に対するインテリジェントで適応的で自動化されたアプローチを可能にすることで、サイバーセキュリティを変革している。 高度な言語理解とコンテキスト推論によって、LLMは、IoTやブロックチェーン、ハードウェアセキュリティといったドメイン間の課題に対処する従来の手法を超越している。
    論文  参考訳(メタデータ)   (Fri, 18 Jul 2025 03:41:18 GMT)
  • 「This survey provides a comprehensive overview of LLM applications in cybersecurity, focusing on two core areas: (1) the integration of LLMs into key cybersecurity domains, and (2) the vulnerabilities of LLMs themselves, along with mitigation strategies」というLLMとセキュリティに関するサーベイ。