2023年11月8日 – arXiv最新論文の紹介

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文参考訳（メタデータ） (Sun, 29 Oct 2023 16:49:45 GMT)
たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.

MM-VID: Advancing Video Understanding with GPT-4V(ision) [113.6]
我々は、GPT-4Vの能力を利用して高度な映像理解を促進する統合システムMM-VIDを提案する。 MM-VIDは、長いビデオや1時間以内のコンテンツの推論のような複雑なタスクによって生じる課題に対処するために設計されている。ビデオゲームやグラフィックユーザインタフェースといったインタラクティブな環境に適用する際の可能性を示す。
論文参考訳（メタデータ） (Mon, 30 Oct 2023 17:44:09 GMT)
GPT-4Vを用いたビデオ対応、そもそも極めて高性能なバックボーンではあるが、(i) Multimodal Pre-Processing,(ii) External Knowledge Collection,(iii) Clip-Level Video Description Generation, (iv) Script Generationと凝ったパイプライン構成になっている。
プロジェクトサイトはMM-Vid: Advancing Video Understanding with GPT-4V(ision) (multimodal-vid.github.io)

日: 2023年11月8日