xGen-MM-Vid (BLIP-3-Video)

  • xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [112.4]
    ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 17:59:11 GMT)
  • salesforceによる動画対応マルチモーダルLLM、軽量だが高い性能。
  • リポジトリはxGen-MM-Vid (BLIP-3-Video)

JudgeBench: A Benchmark for Evaluating LLM-based Judges

  • JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
    judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。 審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 17:58:19 GMT)
  • LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
  • リポジトリはGitHub – ScalerLab/JudgeBench