コンテンツへスキップ
- Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025 [167.9]
本稿では,Adversarial Testing & Large-model Alignment Safety Grand Challenge (ATLAS) 2025の成果を報告する。 このコンペティションには、ホワイトボックスとブラックボックス評価という2つのフェーズで、敵対的な画像テキスト攻撃を通じてMLLM脆弱性をテストする86のチームが含まれていた。 この課題はMLLMの安全性評価のための新しいベンチマークを確立し、より安全なAIシステムを改善するための基盤を配置する。
論文 参考訳(メタデータ) (Sat, 14 Jun 2025 10:03:17 GMT)
- MLLMへの攻撃コンペティションの結果報告。多くのチームが参加するコンペティションで使われたテクニックはとても参考になる。一位だったチームの「In this competition, we proposed an effective multimodal jailbreak strategy by embedding malicious intent within visually structured diagrams, particularly flowcharts, and enhancing it with carefully designed textual prompts. Our approach leveraged the weaknesses in safety alignment of vision-language models, exploiting their tendency to follow structured visual and textual cues.」のようにフローチャートを通したJailbreakなど画像をうまく使っているの興味深い。
- リポジトリはGitHub – NY1024/ATLAS_Challenge_2025
- MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [70.5]
MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。 MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。 MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
論文 参考訳(メタデータ) (Thu, 05 Jun 2025 21:05:03 GMT)
- 「We show that MMTU require a combination of skills – includ- ing table understanding, reasoning, and coding – that remain challenging for today’s frontier models, where even frontier reasoning models like OpenAI o4- mini and DeepSeek R1 score only around 60%, suggesting significant room for improvement.」という数表を扱うベンチマーク
- リポジトリはGitHub – MMTU-Benchmark/MMTU、データはMMTU-benchmark/MMTU · Datasets at Hugging Face
- Model Merging for Knowledge Editing [53.8]
大規模言語モデル(LLM)は、世界が進化するにつれて正確で現在の知識を維持するために継続的な更新を必要とする。 既存の知識編集アプローチは知識更新のための様々なソリューションを提供するが、しばしば連続的な編集シナリオに苦労する。 本稿では,頑健な教師付き微調整(R-SFT)とモデルマージを組み合わせた2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (Sat, 14 Jun 2025 07:42:39 GMT)
- SFTとmodel mergeによるknowledge editing
- リポジトリはGitHub – Applied-Machine-Learning-Lab/MM4KE