Video Understanding with Large Language Models: A Survey

  • Video Understanding with Large Language Models: A Survey [101.9]
    本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。 この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
    論文  参考訳(メタデータ)   (Fri, 29 Dec 2023 01:56:17 GMT)
  • LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
  • リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)

DIALIGHT

  • DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.8]
    DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。 ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。 評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 11:27:48 GMT)
  • 多言語に対応したタスク志向対話システムを開発するためのツールキットの提案。PLMのfine tuning、ICLに対応。mT5 + fine tuningがGPT-3.5 + In-context learningより優れていることも多いのが興味深い。
  • リポジトリはhttps://github.com/cambridgeltl/e2e_tod_toolkitだが現時点ではNotFound