2023年12月14日 – arXiv最新論文の紹介

Multimodal Large Language Models: A Survey

Multimodal Large Language Models: A Survey [36.1]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文参考訳（メタデータ） (Wed, 22 Nov 2023 05:15:12 GMT)
マルチモーダルな大規模言語モデルのサーベイ、いろいろあるなというのとテクニカルに重要なポイントがまとまっているのがうれしい。

Image Super-Resolution with Text Prompt Diffusion [123.9]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。実験により、テキストプロンプトを画像SRに導入すると、合成画像と実画像の両方で優れた結果が得られることが示された。
論文参考訳（メタデータ） (Fri, 24 Nov 2023 05:11:35 GMT)
超解像タスクにテキストプロンプトを導入する研究、確かにスコアが上がっており面白い。適切なプロンプトをかけるかとか、リークはとか思わなくはないが何らかの情報は追加されるはずで効果はありそう。
リポジトリはGitHub – zhengchen1999/PromptSR: PyTorch code for our paper “Image Super-Resolution with Text Prompt Diffusion”

Sequential Modeling Enables Scalable Learning for Large Vision Models [120.9]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (Fri, 1 Dec 2023 18:59:57 GMT)
ピクセル以外の情報を用いないモデルの提案、プロンプトもピクセル。「So, we graciously hand over to you, our gentle reader, the task of pondering whether our modest LVM also exhibits the much-vaunted ‘Sparks of AGI’.」というコメントが面白く、熱い。
プロジェクトサイトはLarge Vision Models (yutongbai.com)