コンテンツへスキップ
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.5]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。 トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (Wed, 21 May 2025 08:35:05 GMT)
- 「Drawing inspiration from cognitive neuroscience, which suggests that human reasoning functions largely independently of language processing, we hypothesize that LLMs similarly encode reasoning and language as separable components that can be disentangled to enhance multilingual reasoning」に基づき、「Through targeted interventions in the LLMs’ activation space, we demonstrate that removing language-specific information significantly improves reasoning performance across languages.」とのこと。
- 仮説も検証結果も非常に興味深い。LLMは人間の脳とは全く別のはずだが近い動き(機能分解)になっているのは何故なんだろう・・・
- Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [190.9]
Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。 高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
論文 参考訳(メタデータ) (Wed, 21 May 2025 12:11:53 GMT)
- TencentによるMamba hybrid、MoE、Adaptive CoTと全部盛り感のあるモデル(Mistral Small 3.1, Hunyuan-T1 – arXiv最新論文の紹介にも関連)。
- Hunyuan-TurboS features an adaptive long-short chain-of-thought (CoT) mechanism, dynamically switching between rapid responses for simple queries and deep ”thinking” modes for complex problems, optimizing computational resources. Architecturally, this 56B activated (560B total) parameter model employs 128 layers (Mamba2, Attention, FFN) with an innovative AMF/MF block pattern.
- Mambaアーキテクチャ(ハイブリッド)モデルでベンチマークのスコアも非常に高い。「LMSYS Chatbot Arena with a score of 1356, outperforming leading models like Gemini-2.0-Flash-001 (1352) and o4-mini-2025-04-16 (1345)」とのこと。(LLM?LRM?という疑問はありつつ)個別タスクだと他のオープンソースモデルや商用モデルを超えているものもある。オープンな比較対象はLlama-4-Maverick, DeepSeek-V3 , Qwen3-235B-A22Bと最新のもの。
- 「The inference of the Hunyuan-TurboS model is powered by the AngelHCF Inference Acceleration Framework. For the Mamba Hybrid architecture of the TurboS model, we have implemented optimizations across folloing three key dimensions, ultimately achieving a 1.8x speedup compared to Hunyuan-Turbo, which is a pure Transformers MoE model」とMambaの有効性もしてしており、全般的に非常に先進的なモデルに見える。
- LLMs unlock new paths to monetizing exploits [85.6]
大規模言語モデル(LLM)はすぐにサイバー攻撃の経済性を変えるだろう。 LLMは、敵がユーザーごとにカスタマイズされた攻撃を起動することを可能にする。
論文 参考訳(メタデータ) (Fri, 16 May 2025 17:05:25 GMT)
- LLMの悪用可能性に関する報告。より適合的な攻撃ができるのはそうだろうと思う。
- 「To demonstrate this capability, we divide all emails from the Enron dataset into 150 (potentially overlapping) sets, grouped by the Enron employee who has sent or received that email. We then feed each of these collections of emails into a LLM (Claude 3.5 Sonnet) and ask it to describe everyone who this employee is emailing. Doing this identifies one Enron employee (John G.) who is having an extramarital affair with a coworker.」は大規模データ分析の点からも興味深い。
- Hand-Shadow Poser [119.0]
手影芸術は、創造的に手影を使って、壁の表現的な形を再現する、魅惑的な芸術形式である。 本研究では,対象の形状が与えられた場合,入力に類似した影を生成する左右の手のポーズを求める。 これらの課題に対処するために、3段階のパイプラインであるHand-Shadow Poserを設計し、(手で)解剖学的制約と(シャドー形状で)意味論的制約を分離します。
論文 参考訳(メタデータ) (Sun, 11 May 2025 15:15:35 GMT)
- 手で作る影絵に関する研究。「This problem is nontrivial, since the design space of 3D hand poses is huge while be- ing restrictive due to anatomical constraints. Also, we need to attend to the input’s shape and crucial features, though the input is colorless and textureless.」と実行可能性まで考えると意外と難しいタスクらしい。
- リポジトリはGitHub – hxwork/HandShadowPoser: SIGGRAPH 2025
- Benchmarking LLMs’ Swarm intelligence [50.5]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。 既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。 分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 12:32:01 GMT)
- 「we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, For- aging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k × k view) and local communication.」というベンチマークの提案。
- リポジトリはGitHub – RUC-GSAI/YuLan-SwarmIntell: 🐝 SwarmBench: Benchmarking LLMs’ Swarm Intelligence
- EcoLANG: Efficient and Effective Agent Communication Language Induction for Social Simulation [49.8]
大規模言語モデル(LLM)は、人間をロールプレイし、複雑な社会力学を再現する印象的な能力を実証している。 分散メカニズムやハイブリッドエージェントベースモデル(ABM)統合のような既存のソリューションは、推論コストや妥協精度、一般化可能性に対処できない。 社会シミュレーションのための効率的かつ効果的なエージェントコミュニケーション言語インジェクションであるEcoLANGを提案する。
論文 参考訳(メタデータ) (Sun, 11 May 2025 08:51:56 GMT)
- LLM basedな社会シミュレーションでまずコミュニケーション方法を最適化してコストパフォーマンスを上げようという研究。「EcoLANG operates in two stages: (1) language evolution, where we filter synonymous words and optimize sentence-level rules through natural selection, and (2) language utilization, where agents in social simulations communicate using the evolved language.」という手順とのことで正確性を損なっていないとのことだが、本当にうまくいっているのだろうか・・・
- リポジトリはGitHub – xymou/EcoLANG
- The Aloe Family Recipe for Open and Specialized Healthcare LLMs [0.5]
この研究は、データ前処理とトレーニングの重要な段階を最適化することで、オープン医療用LDMの分野に貢献する。 結果として得られたモデルは、最高のプライベートな代替品と競合することが示され、パーミッシブなライセンスでリリースされている。
論文 参考訳(メタデータ) (Wed, 07 May 2025 13:13:14 GMT)
- ヘルスケア分野へのLLMの特化に関する報告。整理などを含めて参考になる。
- Putting It All into Context: Simplifying Agents with LCLMs [36.6]
足場やツールを含まないGemini-1.5-Proモデルでは,SWE-Bench-Verifiedでは38%を実現している。 Gemini-1.5-Proの非スキャフォールドアプローチは最も強力なエージェントアーキテクチャには及ばないが、同じ非スキャフォールドアプローチを使用するより有能なGemini-2.5-Proが直接50.8%の解率に達することを実証する。
論文 参考訳(メタデータ) (Mon, 12 May 2025 23:22:27 GMT)
- ソフトウェア開発&LLMの分野ではAgenticなアプローチが流行っているが「the core of our workflow is the use of LCLMs that receive the entire code repository and directly outputs the solution (DIRECTSOLVE), analogous to standard zero-shot prompting tasks where LMs have demonstrated strong performance.」とlong context対応モデルの性能を信じたアプローチが有効であるとの報告。「We show that LCLMs can drastically simplify agent design on software engineering tasks, outperforming more complex pipelines by 3 – 6%, without any scaffolding or tools.」とのこと。
- RAG vs LCでもlong contextの有効性は知られていて、それとも整合的に見える。
- SITE: towards Spatial Intelligence Thorough Evaluation [121.1]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。 ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (Thu, 08 May 2025 17:45:44 GMT)
- Spatial Intelligenceのベンチマーク。GPT-4oでも人間との差が大きい。(そしてInternVL-2.5-8Bのスコアが意外と高い)
- プロジェクトサイトはSITE: towards Spatial Intelligence Thorough Evaluation