Understanding Gen Alpha Digital Language: Evaluation of LLM Safety Systems for Content Moderation 

  • Understanding Gen Alpha Digital Language: Evaluation of LLM Safety Systems for Content Moderation [8.9]
    この研究は、AIシステムがジェネレーションアルファのデジタル言語をどのように解釈するかの独特な評価を提供する(Gen Alpha、2010年生まれ-2024年) Gen Alphaは、没入型のデジタルエンゲージメントと、進化するコミュニケーションと既存の安全ツールとのミスマッチの増加により、新たな形のオンラインリスクに直面している。 この研究は、ゲームプラットフォーム、ソーシャルメディア、ビデオコンテンツからの100の最近の表現のデータセットを使用して、オンラインの安全性に直接影響する重要な理解障害を明らかにしている。
    論文  参考訳(メタデータ)   (Wed, 14 May 2025 16:46:11 GMT)
  • デジタルネイティブ世代とのギャップに関する研究、「Most critically, protection systems consistently lagged behind the rapid evolution of expressions, creating windows of vulnerability where concerning interactions went undetected」で「The resulting trust gap led many Gen Alpha users to avoid reporting concerning interactions, believing adults would misunderstand or minimize their experiences.」とのこと。。
  • 生成AI時代はもっとギャップが広がるのだろうか・・・
  • リポジトリはGitHub – SystemTwoAI/GenAlphaSlang

Google I/O, Claude 4 Sonnet / Opus

Google I/Oで発表されたGemini 2.5 Proの性能(含DeepThink)、Imagen 4やVeo 3といった画像生成・動画生成モデル及び同時期に発表された拡散モデルなGemini DiffusionはGoogleが全方位で生成AIに取り組み、かつ、高い成果を出している証拠でさすがGoogleという感じ。

GoogleはIt’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization  – arXiv最新論文の紹介などNext Transformerな研究も積極的に行っておりとても興味深い。このあたりもさすがGoogle。

AnthropicからはClaude 4が発表されている。Agenticな動作で重要となる機能やコード生成で高い性能を主張しており、期待大。

OpenAI一強の時代から一歩進んだ印象。オープンな取り組みも活発だが、商用モデルも立て続けに興味深い発表がされており非常に競争が激しい。

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

  • When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.5]
    言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。 トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 08:35:05 GMT)
  • 「Drawing inspiration from cognitive neuroscience, which suggests that human reasoning functions largely independently of language processing, we hypothesize that LLMs similarly encode reasoning and language as separable components that can be disentangled to enhance multilingual reasoning」に基づき、「Through targeted interventions in the LLMs’ activation space, we demonstrate that removing language-specific information significantly improves reasoning performance across languages.」とのこと。
  • 仮説も検証結果も非常に興味深い。LLMは人間の脳とは全く別のはずだが近い動き(機能分解)になっているのは何故なんだろう・・・

Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought 

  • Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [190.9]
    Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。 高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 12:11:53 GMT)
  • TencentによるMamba hybrid、MoE、Adaptive CoTと全部盛り感のあるモデル(Mistral Small 3.1, Hunyuan-T1 – arXiv最新論文の紹介にも関連)。
    • Hunyuan-TurboS features an adaptive long-short chain-of-thought (CoT) mechanism, dynamically switching between rapid responses for simple queries and deep ”thinking” modes for complex problems, optimizing computational resources. Architecturally, this 56B activated (560B total) parameter model employs 128 layers (Mamba2, Attention, FFN) with an innovative AMF/MF block pattern.
  • Mambaアーキテクチャ(ハイブリッド)モデルでベンチマークのスコアも非常に高い。「LMSYS Chatbot Arena with a score of 1356, outperforming leading models like Gemini-2.0-Flash-001 (1352) and o4-mini-2025-04-16 (1345)」とのこと。(LLM?LRM?という疑問はありつつ)個別タスクだと他のオープンソースモデルや商用モデルを超えているものもある。オープンな比較対象はLlama-4-Maverick, DeepSeek-V3 , Qwen3-235B-A22Bと最新のもの。
  • 「The inference of the Hunyuan-TurboS model is powered by the AngelHCF Inference Acceleration Framework. For the Mamba Hybrid architecture of the TurboS model, we have implemented optimizations across folloing three key dimensions, ultimately achieving a 1.8x speedup compared to Hunyuan-Turbo, which is a pure Transformers MoE model」とMambaの有効性もしてしており、全般的に非常に先進的なモデルに見える。

LLMs unlock new paths to monetizing exploits 

  • LLMs unlock new paths to monetizing exploits [85.6]
    大規模言語モデル(LLM)はすぐにサイバー攻撃の経済性を変えるだろう。 LLMは、敵がユーザーごとにカスタマイズされた攻撃を起動することを可能にする。
    論文  参考訳(メタデータ)   (Fri, 16 May 2025 17:05:25 GMT)
  • LLMの悪用可能性に関する報告。より適合的な攻撃ができるのはそうだろうと思う。
  • 「To demonstrate this capability, we divide all emails from the Enron dataset into 150 (potentially overlapping) sets, grouped by the Enron employee who has sent or received that email. We then feed each of these collections of emails into a LLM (Claude 3.5 Sonnet) and ask it to describe everyone who this employee is emailing. Doing this identifies one Enron employee (John G.) who is having an extramarital affair with a coworker.」は大規模データ分析の点からも興味深い。

R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution 

Hand-Shadow Poser

  • Hand-Shadow Poser [119.0]
    手影芸術は、創造的に手影を使って、壁の表現的な形を再現する、魅惑的な芸術形式である。 本研究では,対象の形状が与えられた場合,入力に類似した影を生成する左右の手のポーズを求める。 これらの課題に対処するために、3段階のパイプラインであるHand-Shadow Poserを設計し、(手で)解剖学的制約と(シャドー形状で)意味論的制約を分離します。
    論文  参考訳(メタデータ)   (Sun, 11 May 2025 15:15:35 GMT)
  • 手で作る影絵に関する研究。「This problem is nontrivial, since the design space of 3D hand poses is huge while be- ing restrictive due to anatomical constraints. Also, we need to attend to the input’s shape and crucial features, though the input is colorless and textureless.」と実行可能性まで考えると意外と難しいタスクらしい。
  • リポジトリはGitHub – hxwork/HandShadowPoser: SIGGRAPH 2025

Benchmarking LLMs’ Swarm intelligence

  • Benchmarking LLMs’ Swarm intelligence [50.5]
    大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。 既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。 分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 12:32:01 GMT)
  • 「we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, For- aging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k × k view) and local communication.」というベンチマークの提案。
  • リポジトリはGitHub – RUC-GSAI/YuLan-SwarmIntell: 🐝 SwarmBench: Benchmarking LLMs’ Swarm Intelligence

EcoLANG: Efficient and Effective Agent Communication Language Induction for Social Simulation

  • EcoLANG: Efficient and Effective Agent Communication Language Induction for Social Simulation [49.8]
    大規模言語モデル(LLM)は、人間をロールプレイし、複雑な社会力学を再現する印象的な能力を実証している。 分散メカニズムやハイブリッドエージェントベースモデル(ABM)統合のような既存のソリューションは、推論コストや妥協精度、一般化可能性に対処できない。 社会シミュレーションのための効率的かつ効果的なエージェントコミュニケーション言語インジェクションであるEcoLANGを提案する。
    論文  参考訳(メタデータ)   (Sun, 11 May 2025 08:51:56 GMT)
  • LLM basedな社会シミュレーションでまずコミュニケーション方法を最適化してコストパフォーマンスを上げようという研究。「EcoLANG operates in two stages: (1) language evolution, where we filter synonymous words and optimize sentence-level rules through natural selection, and (2) language utilization, where agents in social simulations communicate using the evolved language.」という手順とのことで正確性を損なっていないとのことだが、本当にうまくいっているのだろうか・・・
  • リポジトリはGitHub – xymou/EcoLANG

The Aloe Family Recipe for Open and Specialized Healthcare LLMs

  • The Aloe Family Recipe for Open and Specialized Healthcare LLMs [0.5]
    この研究は、データ前処理とトレーニングの重要な段階を最適化することで、オープン医療用LDMの分野に貢献する。 結果として得られたモデルは、最高のプライベートな代替品と競合することが示され、パーミッシブなライセンスでリリースされている。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 13:13:14 GMT)
  • ヘルスケア分野へのLLMの特化に関する報告。整理などを含めて参考になる。