- Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [124.7]
Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。 私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。 Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
論文 参考訳(メタデータ) (Fri, 13 Jun 2025 21:13:57 GMT) - 大規模データのインデックス化に関する報告。このインデックスを用いて各種ベンチマークの汚染度を計算している(Benchmark Contamination Monitoring System – a Hugging Face Space by infini-gram-mini)。今までも指摘されていたことだが、信頼性に疑問がでてくるものもありそう。
- プロジェクトサイトはHome | infini-gram-mini、リポジトリはGitHub – xuhaoxh/infini-gram-mini
カテゴリー: arXiv
Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability
- Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability [1.3]
Institutional Books 1.0は、2006年からHarvard LibraryのGoogle Booksプロジェクトへの参加を通じてデジタル化されたパブリックドメインブックのコレクションである。 ハーバード図書館で作業し、これらの論文を抽出し、分析し、処理し、歴史文書の広範囲に記録されたデータセットにしました。 この分析は、当初250以上の異なる言語で書かれた1,075,899巻に及ぶ、約250億個のトークンをスキャンしたハーバード図書館のコレクション全体をカバーしている。
論文 参考訳(メタデータ) (Tue, 10 Jun 2025 00:11:30 GMT) - 「OCR-extracted text (original and post-processed) as well as the metadata (bibliographic, source, and generated) of the 983,004 volumes, or 242B tokens, identified as being in the public domain have been made available.」という大規模データ
- データセットはinstitutional/institutional-books-1.0 · Datasets at Hugging Face、リポジトリはGitHub – instdin/institutional-books-1-pipeline: The Institutional Data Initiative’s pipeline for analyzing, refining, and publishing the Institutional Books 1.0 collection.
Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025
- Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025 [167.9]
本稿では,Adversarial Testing & Large-model Alignment Safety Grand Challenge (ATLAS) 2025の成果を報告する。 このコンペティションには、ホワイトボックスとブラックボックス評価という2つのフェーズで、敵対的な画像テキスト攻撃を通じてMLLM脆弱性をテストする86のチームが含まれていた。 この課題はMLLMの安全性評価のための新しいベンチマークを確立し、より安全なAIシステムを改善するための基盤を配置する。
論文 参考訳(メタデータ) (Sat, 14 Jun 2025 10:03:17 GMT) - MLLMへの攻撃コンペティションの結果報告。多くのチームが参加するコンペティションで使われたテクニックはとても参考になる。一位だったチームの「In this competition, we proposed an effective multimodal jailbreak strategy by embedding malicious intent within visually structured diagrams, particularly flowcharts, and enhancing it with carefully designed textual prompts. Our approach leveraged the weaknesses in safety alignment of vision-language models, exploiting their tendency to follow structured visual and textual cues.」のようにフローチャートを通したJailbreakなど画像をうまく使っているの興味深い。
- リポジトリはGitHub – NY1024/ATLAS_Challenge_2025
MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark
- MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [70.5]
MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。 MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。 MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
論文 参考訳(メタデータ) (Thu, 05 Jun 2025 21:05:03 GMT) - 「We show that MMTU require a combination of skills – includ- ing table understanding, reasoning, and coding – that remain challenging for today’s frontier models, where even frontier reasoning models like OpenAI o4- mini and DeepSeek R1 score only around 60%, suggesting significant room for improvement.」という数表を扱うベンチマーク
- リポジトリはGitHub – MMTU-Benchmark/MMTU、データはMMTU-benchmark/MMTU · Datasets at Hugging Face
Model Merging for Knowledge Editing
- Model Merging for Knowledge Editing [53.8]
大規模言語モデル(LLM)は、世界が進化するにつれて正確で現在の知識を維持するために継続的な更新を必要とする。 既存の知識編集アプローチは知識更新のための様々なソリューションを提供するが、しばしば連続的な編集シナリオに苦労する。 本稿では,頑健な教師付き微調整(R-SFT)とモデルマージを組み合わせた2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (Sat, 14 Jun 2025 07:42:39 GMT) - SFTとmodel mergeによるknowledge editing
- リポジトリはGitHub – Applied-Machine-Learning-Lab/MM4KE
Vision Generalist Model: A Survey
- Vision Generalist Model: A Survey [87.5]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。 関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文 参考訳(メタデータ) (Wed, 11 Jun 2025 17:23:41 GMT)
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
- V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.2]
現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。 本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。 我々は物理世界で理解し、予測し、計画できるモデルを開発する。
論文 参考訳(メタデータ) (Wed, 11 Jun 2025 17:57:09 GMT) - 「we show that joint-embedding predictive architectures learning from videos can be used to build a world model that enables understanding the physical world, predicting future states, and effectively planning in new situations; this is achieved by leveraging internet-scale video and a small amount of interaction data.」とのこと。
- プロジェクトサイトはIntroducing the V-JEPA 2 world model and new benchmarks for physical reasoning、リポジトリはGitHub – facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
- AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.3]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。 スケーリング戦略は 推理性能に顕著な改善をもたらします 我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 09:27:48 GMT) - LRM開発において重要なSFTとRLの関係を検証した論文。「Our results show that both scaling strategies substantially improve the reasoning abilities of large language models (LLMs).」とのこと。
- 「Interestingly, even strong SFT models with robust coding abilities benefit substantially from math-only RL training. This leads to further gains in coding performance.」のように隣接領域(?)での性能向上は、この分野だと色々なところで見られて興味深い性質だと思っている。
- リポジトリはnvidia/AceReason-Nemotron-1.1-7B · Hugging Face
Gemini 2.5 Pro, Flash , 2.5 Flash-Lite, MiniMax-M1, Kimi-Dev-72B
Gemini 2.5 Proからpreviewが取れ、2.5 Flash Liteが出る(Gemini Pro – Google DeepMind)など先週も様々なニュースがあった。
高効率なモデルで知られるMiniMaxからはReasoningモデルが出ている。MoonshotからはKimi-Dev-72Bが公開されておりこちらも期待が大きい(GitHub – MoonshotAI/Kimi-Dev: open-source coding LLM for software engineering tasks)。テクニカルレポートは準備中とのこと。
- MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [90.7]
MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。 コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。 MiniMax-M1は大規模強化学習を用いて訓練されている。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 15:08:02 GMT) - 効率的なLightning Attentionを活用したモデル。Lightning Attentionの計算量はコンテキスト長に対し線形(ではあるが全体のバランスを考えてのハイブリッド構造)でLRMに向いていそう。加えて最近のモデルで多いMoEを採用している。
- リポジトリはGitHub – MiniMax-AI/MiniMax-M1: MiniMax-M1, the world’s first open-weight, large-scale hybrid-attention reasoning model.
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence
- SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence [28.0]
自動エージェントシステム生成のためのフレームワークであるSwarmAgenticを提案する。 SwarmAgenticはエージェントシステムをスクラッチから構築し、エージェント機能とコラボレーションを共同で最適化する。 提案手法を,高レベル計画,システムレベルの調整,創造的推論を含む6つの実世界,オープンエンド,探索的タスクで評価する。
論文 参考訳(メタデータ) (Wed, 18 Jun 2025 17:54:55 GMT) - 「We propose SwarmAgentic, a framework for fully automated agentic system generation that constructs agentic systems from scratch and jointly optimizes agent functional- ity and collaboration as interdependent com- ponents through language-driven exploration. To enable efficient search over system-level structures, SwarmAgentic maintains a population of candidate systems and evolves them via feedback-guided updates, drawing inspiration from Particle Swarm Optimization (PSO).」というフレームワークの提案。
- 各エージェントを粒子ととらえらParticle Swarm Optimization (PSO)的アプローチで他手法を超える性能とのこと。計算コストがどの程度かはやや気になるところ。
- プロジェクトサイトはAcademic Project Page