- A Systematic Survey on Large Language Models for Evolutionary Optimization: From Modeling to Solving [26.5]
大規模言語モデル(LLM)は、最適化問題に対処するためにますます研究されている。 急速な進歩にもかかわらず、この分野は依然として統一的な合成と体系的な分類を欠いている。 この調査は、最近の開発を包括的にレビューし、構造化されたフレームワーク内でそれらを整理することで、このギャップに対処する。 - 論文 参考訳(メタデータ) (Wed, 10 Sep 2025 04:05:54 GMT)
- 最適化問題に対するLLM活用のサーベイ
- リポジトリはGitHub – ishmael233/LLM4OPT: A collection of LLMs for optimization, including modeling and solving
タグ: LLM
A Survey of Long-Document Retrieval in the PLM and LLM Era
- A Survey of Long-Document Retrieval in the PLM and LLM Era [19.1]
この調査は、LDR(Long-Docment Search)の最初の包括的治療を提供する。 古典的語彙モデルと初期ニューラルモデルから近代事前学習モデル(PLM)および大規模言語モデル(LLM)への進化を体系化する。 我々は、ドメイン固有のアプリケーション、特別な評価リソースをレビューし、効率のトレードオフ、マルチモーダルアライメント、忠実さといった重要なオープン課題を概説する。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 13:57:53 GMT) - 長い文書の取り扱いに関するサーベイ
Pre-training under infinite compute
- Pre-training under infinite compute [87.0]
本研究では、エポック数の増加とパラメータ数の増加に対するデータ制約によるアプローチが、最終的には過度に適合することを示す。 独立に訓練されたモデルのアンサンブルは、正規化レシピよりもはるかに低損失の漸近を達成できる。 この結果から,計算量の多い将来において,よりデータ効率の高い事前学習が実現できることが示唆された。
論文 参考訳(メタデータ) (Thu, 18 Sep 2025 09:36:23 GMT) - 「Our best intervention combining epoching, regularization, parameter scaling, and ensemble scaling achieves an asymptote at 200M tokens using 5.17× less data than our baseline, and our data scaling laws predict that this improvement persists at higher token budgets. We find that our data efficiency gains can be realized at much smaller parameter counts as we can distill an ensemble into a student model that is 8× smaller and retains 83% of the ensembling benefit.」とデータ枯渇の懸念に対する回答になりそうな結果。
MobileLLM-R1, APERTUS
先週はOpenAIによるICPCの成果(https://x.com/MostafaRohani/status/1968360976379703569)などが話題になった。クローズドモデルの性能向上は本当にすごい。とはいえ、Metaによる小型モデルMobileLLM-R1(facebook/MobileLLM-R1-950M · Hugging Face)やオープンかつ権利関係にも気を使い他のモデルと競合的な性能を達成しているAPERTUS など公開モデルの取り組みも興味深い状況が続く。本当に目が離せない。
- Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.7]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。 Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。 Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (Wed, 17 Sep 2025 17:59:21 GMT) - オープンかつ多言語、さらに権利関係にもかなり配慮しているモデル「The models are trained on 15T tokens from 1811 languages with retroactive respect for robots.txt and related opt outs, and with a Goldfish-style objective to curb verbatim reproduction of training text.」。性能もかなり高く、非常に興味深い。
- モデルはswiss-ai/Apertus-70B-Instruct-2509 · Hugging Face
Qwen3-Next-80B-A3B, Qwen3-ASR, Hunyuan-MT, MMBERT
先週の大きなニュースは非常に疎な構成を持ち性能の高いQwen/Qwen3-Next-80B-A3B-Instruct · Hugging Faceの発表だろうと思う。DeepSeekなども同様にMoE構成ではとてもスパースな構造をとることが流行っている。Qwenからはマルチリンガルな音声認識モデルQwen-ASRも発表されている。周辺領域もしっかりと作っている印象。
Hunyuan-MTはHunyuanをベースとした機械翻訳モデルである。特化型大規模言語モデル『PLaMo翻訳』を公開しました – Preferred Networks Research & Developmentもだが、LLMベースのものは非常に強力である。
最後にマルチリンガルなencoder onlyモデル、MMBERTも発表されていた。decoder onlyなLLM全盛という感じではあるが、分類など実用的なタスクでは今でも重要なアプローチである。
- Hunyuan-MT Technical Report [20.9]
Hunyuan-MT-7Bは33の主要言語にまたがる双方向翻訳をサポートしている。 Hunyuan-MT-Chimera-7Bは、スローシンキングモードにインスパイアされた翻訳モデルである。
論文 参考訳(メタデータ) (Fri, 05 Sep 2025 16:11:05 GMT) - 「The development of our models follows a holistic training process specifically engineered for multilingual translation, which begins with general and MT-oriented pre-training to build foundational capabilities, proceeds to Supervised Fine-Tuning (SFT) for task-specific adaptation, and culminates in advanced alignment through Reinforcement Learning (RL) and weak-to-strong RL.」とあるがそれぞれのパイプラインもとても凝っている。
- リポジトリはtencent/Hunyuan-MT-7B · Hugging Face
- mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.6]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。 データに1700以上の低リソース言語を追加しています。 分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (Mon, 08 Sep 2025 17:08:42 GMT) - 「We do this by pre-training our new model suite, MMBERT, on 3T tokens of multilingual text using an architecture inspired from ModernBERT (Warner et al , 2024).」というマルチリンガルBERT。
- リポジトリはGitHub – JHU-CLSP/mmBERT: A massively multilingual modern encoder language model
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [221.3]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。 この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。 我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (Thu, 28 Aug 2025 18:30:52 GMT) - 応用が進む科学研究とLLMに関するサーベイ。
- リポジトリはGitHub – open-sciencelab/Awesome-Scientific-Datasets-and-LLMs: A curated collection of papers, datasets, and resources on Scientific Datasets and Large Language Models (LLMs)
LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres
- LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres [15.2]
大規模言語モデルのセキュリティオペレーションセンター(SOC)への統合は、アナリストの作業量を削減するための変革的かつまだ進化している機会を提供する。 本稿では,SOCアナリスト45名を対象に,10ヶ月で3,090件の質問に対して縦断調査を行った。 分析の結果,LLMを高精細度判定ではなく,センスメイキングやコンテキストビルディングのオンデマンド支援として活用していることが判明した。
論文 参考訳(メタデータ) (Tue, 26 Aug 2025 11:40:02 GMT) - SOCアナリストがどのようにLLMを使っているかの報告。
- 「By analysing thousands of analyst-generated queries, we found that analysts use LLMs as on-demand, task-focused cognitive aids for a variety of tasks, including explaining commands, writing scripts, or improving documentation, rather than as full-time copilots.」は現状としてはそうだろうなという印象。
Qwen3-Max, K2-Instruct-0905, LongCat-Flash, Dream-Coder 7B, Kwai Keye-VL 1.5
先週もLLM/LRM界隈のニュースは多かった。Qwen3系最大構成のQwen3 Maxの公開(XユーザーのQwenさん: 「Big news: Introducing Qwen3-Max-Preview (Instruct) — our biggest model yet, with over 1 trillion parameters! 🚀 Now available via Qwen Chat & Alibaba Cloud API. Benchmarks show it beats our previous best, Qwen3-235B-A22B-2507. Internal tests + early user feedback confirm: https://t.co/7vQTfHup1Z」 / X、Models and pricing – Alibaba Cloud Model Studio – Alibaba Cloud Documentation Center)、Kimi K2のアップデート(XユーザーのKimi.aiさん: 「Kimi K2-0905 update 🚀 – Enhanced coding capabilities, esp. front-end & tool-calling – Context length extended to 256k tokens – Improved integration with various agent scaffolds (e.g., Claude Code, Roo Code, etc) 🔗 Weights & code: https://t.co/83sQekosr9 💬 Chat with new Kimi https://t.co/mkOuBMwzpw」 / X、moonshotai/Kimi-K2-Instruct-0905 · Hugging Face)やLongCat-Flashの他、Dream-Coder 7B、Kwai Keye-VL 1.5など小規模でもユニークなモデルも発表されている。
Introduction – Agent Client Protocol(GitHub – zed-industries/agent-client-protocol: A protocol for connecting any editor to any agent)といったプロトコルの提案など周辺領域にも目が離せない。
- LongCat-Flash Technical Report [165.7]
LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。 計算効率と高度なエージェント能力の両方のために設計されている。 30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
論文 参考訳(メタデータ) (Mon, 01 Sep 2025 10:05:45 GMT) - 560B MoE構成、「As a non-thinking model, LongCat-Flash achieves performance comparable to state-of-the-art non-thinking models, including DeepSeek-V3.1 [DeepSeek-AI et al , 2025] and Kimi-K2 [Team et al , 2025], while using fewer parameters and offering faster inference speed. Specifically, LongCat-Flash scores 86.5 on ArenaHard-V2, 39.5 on TerminalBench, and 67.7 on τ 2-Bench, demonstrating robust capabilities in general domains, coding, and agentic tool use.」
- リポジトリはGitHub – meituan-longcat/LongCat-Flash-Chat
- Dream-Coder 7B: An Open Diffusion Language Model for Code [99.1]
そこで,Dream-Coder 7Bを提案する。Dream-Coder 7Bは,任意の順序生成能力を示すコード生成のための,オープンソースの離散拡散言語モデルである。 厳密に左から右にデコードする従来の自己回帰(AR)モデルとは異なり、ドリームコーダ7Bはコーディングタスクに基づいてデコード戦略を適応的に決定する。
論文 参考訳(メタデータ) (Mon, 01 Sep 2025 05:30:56 GMT) - コーディングタスク強化の拡散モデル
- リポジトリはGitHub – DreamLM/Dream-Coder
- Kwai Keye-VL 1.5 Technical Report [91.3]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。 まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。 次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。 第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (Mon, 01 Sep 2025 15:46:58 GMT) - 「Keye-VL-1.5-8B establishes new state-of-the-art performance among models of similar scale, demonstrating superior results on video-centric benchmarks while maintaining competitive performance on general multimodal and reasoning tasks.」とビデオを扱えるモデル
- リポジトリはGitHub – Kwai-Keye/Keye
Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
- Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 13:32:12 GMT) - 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
- リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE
先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された(https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face)。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された(VibeVoice)。特化型を使う場面も多々残っていてありがたい。
- InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。 主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。 我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:58:17 GMT) - InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。(パラメータサイズの差かQwen3の方が性能が高い。)
- リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face
- Hermes 4 Technical Report [7.6]
Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。 データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:45:06 GMT) - リポジトリはHermes 4 Collection – a NousResearch Collection
- VibeVoice Technical Report [90.1]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。 本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文 参考訳(メタデータ) (Tue, 26 Aug 2025 17:09:12 GMT) - リポジトリはGitHub – microsoft/VibeVoice: Frontier Open-Source Text-to-Speech