LLMs unlock new paths to monetizing exploits 

  • LLMs unlock new paths to monetizing exploits [85.6]
    大規模言語モデル(LLM)はすぐにサイバー攻撃の経済性を変えるだろう。 LLMは、敵がユーザーごとにカスタマイズされた攻撃を起動することを可能にする。
    論文  参考訳(メタデータ)   (Fri, 16 May 2025 17:05:25 GMT)
  • LLMの悪用可能性に関する報告。より適合的な攻撃ができるのはそうだろうと思う。
  • 「To demonstrate this capability, we divide all emails from the Enron dataset into 150 (potentially overlapping) sets, grouped by the Enron employee who has sent or received that email. We then feed each of these collections of emails into a LLM (Claude 3.5 Sonnet) and ask it to describe everyone who this employee is emailing. Doing this identifies one Enron employee (John G.) who is having an extramarital affair with a coworker.」は大規模データ分析の点からも興味深い。

R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution 

Hand-Shadow Poser

  • Hand-Shadow Poser [119.0]
    手影芸術は、創造的に手影を使って、壁の表現的な形を再現する、魅惑的な芸術形式である。 本研究では,対象の形状が与えられた場合,入力に類似した影を生成する左右の手のポーズを求める。 これらの課題に対処するために、3段階のパイプラインであるHand-Shadow Poserを設計し、(手で)解剖学的制約と(シャドー形状で)意味論的制約を分離します。
    論文  参考訳(メタデータ)   (Sun, 11 May 2025 15:15:35 GMT)
  • 手で作る影絵に関する研究。「This problem is nontrivial, since the design space of 3D hand poses is huge while be- ing restrictive due to anatomical constraints. Also, we need to attend to the input’s shape and crucial features, though the input is colorless and textureless.」と実行可能性まで考えると意外と難しいタスクらしい。
  • リポジトリはGitHub – hxwork/HandShadowPoser: SIGGRAPH 2025

Benchmarking LLMs’ Swarm intelligence

  • Benchmarking LLMs’ Swarm intelligence [50.5]
    大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。 既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。 分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 12:32:01 GMT)
  • 「we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, For- aging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k × k view) and local communication.」というベンチマークの提案。
  • リポジトリはGitHub – RUC-GSAI/YuLan-SwarmIntell: 🐝 SwarmBench: Benchmarking LLMs’ Swarm Intelligence

EcoLANG: Efficient and Effective Agent Communication Language Induction for Social Simulation

  • EcoLANG: Efficient and Effective Agent Communication Language Induction for Social Simulation [49.8]
    大規模言語モデル(LLM)は、人間をロールプレイし、複雑な社会力学を再現する印象的な能力を実証している。 分散メカニズムやハイブリッドエージェントベースモデル(ABM)統合のような既存のソリューションは、推論コストや妥協精度、一般化可能性に対処できない。 社会シミュレーションのための効率的かつ効果的なエージェントコミュニケーション言語インジェクションであるEcoLANGを提案する。
    論文  参考訳(メタデータ)   (Sun, 11 May 2025 08:51:56 GMT)
  • LLM basedな社会シミュレーションでまずコミュニケーション方法を最適化してコストパフォーマンスを上げようという研究。「EcoLANG operates in two stages: (1) language evolution, where we filter synonymous words and optimize sentence-level rules through natural selection, and (2) language utilization, where agents in social simulations communicate using the evolved language.」という手順とのことで正確性を損なっていないとのことだが、本当にうまくいっているのだろうか・・・
  • リポジトリはGitHub – xymou/EcoLANG

The Aloe Family Recipe for Open and Specialized Healthcare LLMs

  • The Aloe Family Recipe for Open and Specialized Healthcare LLMs [0.5]
    この研究は、データ前処理とトレーニングの重要な段階を最適化することで、オープン医療用LDMの分野に貢献する。 結果として得られたモデルは、最高のプライベートな代替品と競合することが示され、パーミッシブなライセンスでリリースされている。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 13:13:14 GMT)
  • ヘルスケア分野へのLLMの特化に関する報告。整理などを含めて参考になる。

Putting It All into Context: Simplifying Agents with LCLMs 

  • Putting It All into Context: Simplifying Agents with LCLMs [36.6]
    足場やツールを含まないGemini-1.5-Proモデルでは,SWE-Bench-Verifiedでは38%を実現している。 Gemini-1.5-Proの非スキャフォールドアプローチは最も強力なエージェントアーキテクチャには及ばないが、同じ非スキャフォールドアプローチを使用するより有能なGemini-2.5-Proが直接50.8%の解率に達することを実証する。
    論文  参考訳(メタデータ)   (Mon, 12 May 2025 23:22:27 GMT)
  • ソフトウェア開発&LLMの分野ではAgenticなアプローチが流行っているが「the core of our workflow is the use of LCLMs that receive the entire code repository and directly outputs the solution (DIRECTSOLVE), analogous to standard zero-shot prompting tasks where LMs have demonstrated strong performance.」とlong context対応モデルの性能を信じたアプローチが有効であるとの報告。「We show that LCLMs can drastically simplify agent design on software engineering tasks, outperforming more complex pipelines by 3 – 6%, without any scaffolding or tools.」とのこと。
  • RAG vs LCでもlong contextの有効性は知られていて、それとも整合的に見える。
    • (とはいえRAGが必要な部分はある)

SITE: towards Spatial Intelligence Thorough Evaluation

  • SITE: towards Spatial Intelligence Thorough Evaluation [121.1]
    空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。 ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
    論文  参考訳(メタデータ)   (Thu, 08 May 2025 17:45:44 GMT)
  • Spatial Intelligenceのベンチマーク。GPT-4oでも人間との差が大きい。(そしてInternVL-2.5-8Bのスコアが意外と高い)
  • プロジェクトサイトはSITE: towards Spatial Intelligence Thorough Evaluation

Federated Learning for Cyber Physical Systems: A Comprehensive Survey

  • Federated Learning for Cyber Physical Systems: A Comprehensive Survey [49.5]
    近年,フェデレートラーニング(FL)が普及している。 この記事では、FLが、インテリジェントトランスポートシステム、サイバーセキュリティサービス、スマートシティ、スマートヘルスケアソリューションなど、重要なCPSアプリケーションでどのように利用されるのかを精査する。
    論文  参考訳(メタデータ)   (Thu, 08 May 2025 01:17:15 GMT)
  • 連合学習とサイバーフィジカルシステムに関するサーベイ
  • 確かに相性はよさそう

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning 

  • J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [69.1]
    このようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介する。 本手法は,判断バイアスを軽減し,思考にインセンティブを与える検証可能な報酬を用いて,検証可能なプロンプトと検証不可能なプロンプトの両方を判断タスクに変換する。 評価基準を概説し、自己生成した基準回答と比較し、モデル応答の正しさを再評価することにより、モデルがより良い判断を下すことが判明した。
    論文  参考訳(メタデータ)   (Thu, 15 May 2025 14:05:15 GMT)
  • Thinking-LLM-as-a-Judge modelsを構築するための強化学習レシピの提案。
  • 「our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model.」とのこと。
  • Assessing Judging Bias in Large Reasoning Models: An Empirical Study – arXiv最新論文の紹介など、LLM as a judgeなタスクでのLRM適用に効果があるという指摘はあったのでそれらと整合的な結果であるように思う。