AlphaEvolve: A coding agent for scientific and algorithmic discovery

  • AlphaEvolve: A coding agent for scientific and algorithmic discovery [63.1]
    我々は,最先端LLMの能力を大幅に向上させる進化的符号化エージェントAlphaEvolveを提案する。 AlphaEvolveはLLMの自律パイプラインを編成し、そのタスクはコードを直接変更することでアルゴリズムを改善することである。 本稿では,多くの重要な計算問題に適用することで,このアプローチの広範な適用性を実証する。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 06:37:18 GMT)
  • AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms – Google DeepMindの論文がarXivに出ていた

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

  • CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios [30.2]
    大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。 タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。 このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 17:59:18 GMT)
  • 「ICTOOL, the first self-critique evaluation benchmark for tool utilization of LLMs. Distinct from prior result-oriented evaluation methods, we categorize error patterns more finely and evaluate models from multiple perspectives, enabling a deeper exploration of LLMs’ tool-use capabilities in errorprone scenarios.」というベンチマーク。最新モデルでの結果が気になるところ。
  • リポジトリはGitHub – Shellorley0513/CriticTool

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

  • Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [124.7]
    Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。 私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。 Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
    論文  参考訳(メタデータ)   (Fri, 13 Jun 2025 21:13:57 GMT)
  • 大規模データのインデックス化に関する報告。このインデックスを用いて各種ベンチマークの汚染度を計算している(Benchmark Contamination Monitoring System – a Hugging Face Space by infini-gram-mini)。今までも指摘されていたことだが、信頼性に疑問がでてくるものもありそう。
  • プロジェクトサイトはHome | infini-gram-mini、リポジトリはGitHub – xuhaoxh/infini-gram-mini

Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability 

Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025

  • Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025 [167.9]
    本稿では,Adversarial Testing & Large-model Alignment Safety Grand Challenge (ATLAS) 2025の成果を報告する。 このコンペティションには、ホワイトボックスとブラックボックス評価という2つのフェーズで、敵対的な画像テキスト攻撃を通じてMLLM脆弱性をテストする86のチームが含まれていた。 この課題はMLLMの安全性評価のための新しいベンチマークを確立し、より安全なAIシステムを改善するための基盤を配置する。
    論文  参考訳(メタデータ)   (Sat, 14 Jun 2025 10:03:17 GMT)
  • MLLMへの攻撃コンペティションの結果報告。多くのチームが参加するコンペティションで使われたテクニックはとても参考になる。一位だったチームの「In this competition, we proposed an effective multimodal jailbreak strategy by embedding malicious intent within visually structured diagrams, particularly flowcharts, and enhancing it with carefully designed textual prompts. Our approach leveraged the weaknesses in safety alignment of vision-language models, exploiting their tendency to follow structured visual and textual cues.」のようにフローチャートを通したJailbreakなど画像をうまく使っているの興味深い。
  • リポジトリはGitHub – NY1024/ATLAS_Challenge_2025

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

  • MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [70.5]
    MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。 MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。 MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
    論文  参考訳(メタデータ)   (Thu, 05 Jun 2025 21:05:03 GMT)
  • 「We show that MMTU require a combination of skills – includ- ing table understanding, reasoning, and coding – that remain challenging for today’s frontier models, where even frontier reasoning models like OpenAI o4- mini and DeepSeek R1 score only around 60%, suggesting significant room for improvement.」という数表を扱うベンチマーク
  • リポジトリはGitHub – MMTU-Benchmark/MMTU、データはMMTU-benchmark/MMTU · Datasets at Hugging Face

Model Merging for Knowledge Editing

  • Model Merging for Knowledge Editing [53.8]
    大規模言語モデル(LLM)は、世界が進化するにつれて正確で現在の知識を維持するために継続的な更新を必要とする。 既存の知識編集アプローチは知識更新のための様々なソリューションを提供するが、しばしば連続的な編集シナリオに苦労する。 本稿では,頑健な教師付き微調整(R-SFT)とモデルマージを組み合わせた2段階のフレームワークを提案する。
    論文  参考訳(メタデータ)   (Sat, 14 Jun 2025 07:42:39 GMT)
  • SFTとmodel mergeによるknowledge editing
  • リポジトリはGitHub – Applied-Machine-Learning-Lab/MM4KE

Vision Generalist Model: A Survey 

  • Vision Generalist Model: A Survey [87.5]
    本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。 関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 17:23:41 GMT)

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

  • V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.2]
    現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。 本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。 我々は物理世界で理解し、予測し、計画できるモデルを開発する。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 17:57:09 GMT)
  • 「we show that joint-embedding predictive architectures learning from videos can be used to build a world model that enables understanding the physical world, predicting future states, and effectively planning in new situations; this is achieved by leveraging internet-scale video and a small amount of interaction data.」とのこと。
  • プロジェクトサイトはIntroducing the V-JEPA 2 world model and new benchmarks for physical reasoning、リポジトリはGitHub – facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

  • AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.3]
    強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。 スケーリング戦略は 推理性能に顕著な改善をもたらします 我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 09:27:48 GMT)
  • LRM開発において重要なSFTとRLの関係を検証した論文。「Our results show that both scaling strategies substantially improve the reasoning abilities of large language models (LLMs).」とのこと。
  • 「Interestingly, even strong SFT models with robust coding abilities benefit substantially from math-only RL training. This leads to further gains in coding performance.」のように隣接領域(?)での性能向上は、この分野だと色々なところで見られて興味深い性質だと思っている。
  • リポジトリはnvidia/AceReason-Nemotron-1.1-7B · Hugging Face