A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

  • A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.5]
    MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。 本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
    論文  参考訳(メタデータ)   (Fri, 2 Aug 2024 15:14:53 GMT)
  • マルチモーダルなLLMに関するサーベイ。多くの研究機関が取り組んでおり成果も多数。
  • 図がとても参考になる。

CoverBench: A Challenging Benchmark for Complex Claim Verification 

  • CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
    複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
    論文  参考訳(メタデータ)   (Tue, 6 Aug 2024 17:58:53 GMT)
  • LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
  • リポジトリはgoogle/coverbench · Datasets at Hugging Face

Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers

  • Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.2]
    本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
    論文  参考訳(メタデータ)   (Sat, 03 Aug 2024 08:07:03 GMT)
  • 下流タスクをターゲットとした攻撃手法の提案。downstream transfer attacks (DTAs)は有効とのこと。また、「We also found that emerging PETL methods like LoRA are more susceptible to transfer attacks crafted on the pre-trained model.」という指摘はそうだろうと思いつつ、有用な方法なので頭が痛い。