UnIVAL

  • Unified Model for Image, Video, Audio and Language Tasks [94.8]
    UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。 本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。 統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
    論文  参考訳(メタデータ)   (Sun, 30 Jul 2023 09:48:36 GMT)
  • Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
  • リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.

Dynalang

  • Learning to Model the World with Language [98.2]
    我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 17:57:49 GMT)
  • エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
  • プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Med-PaLM Multimodal

  • Towards Generalist Biomedical AI [28.7]
    我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
    論文  参考訳(メタデータ)   (Wed, 26 Jul 2023 17:52:22 GMT)
  • マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
  • パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。

InternVid

  • InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [85.8]
    InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 17:58:32 GMT)
  • ビデオ-テキストのマルチモーダルデータセット
  • リポジトリはInternVideo/Data/InternVid at main · OpenGVLab/InternVideo · GitHub

MMBench

  • MMBench: Is Your Multi-modal Model an All-around Player? [90.7]
    大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。 従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。 近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 12 Jul 2023 16:23:09 GMT)
  • Vision/Languageのベンチマーク。検証する能力が20あり、包括的なものになっている。プロジェクトサイトはOpenCompass

CausalVLRとLLMを用いた因果グラフの同定

  • CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [120.6]
    CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。 これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
    論文  参考訳(メタデータ)   (Fri, 30 Jun 2023 08:17:38 GMT)
  • 因果関係の発見と因果推論を言語/画像の面で処理できるツールの詰め合わせ。
  • リポジトリはGitHub – HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning
  • Causal Discovery with Language Models as Imperfect Experts [119.2]
    専門知識を用いて因果グラフの同定を改善する方法について検討する。 整合性に基づく専門家の知識を改良するための戦略を提案する。 本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 16:01:38 GMT)
  • 別の研究でLLMを用いた因果グラフの道程に関する論文も出ていた。LLMを完全ではない専門家として用いる場合のケーススタディがあり、専門家ほどではないが一定の効果はありそうとのこと。

Kosmos-2

  • Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
    マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。 オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。 この研究は、Embodiment AIの開発の基礎を定めている。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 09:11:34 GMT)
  • マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている?(KOSMOS-2 achieves impressive results )との結果。GRIT(Grounded Image-Text pairs)というデータセットも公開予定とのこと。
  • リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub

One-2-3-45 & DreamEditor

  • One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization [31.0]
    単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。 本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 29 Jun 2023 13:28:16 GMT)
  • 1枚の画像からの3D再構成、 Text to 3D Meshにもほんの少し言及がある
  • プロジェクトサイトはOne-2-3-45

  • DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [118.1]
    テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。 DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
    論文  参考訳(メタデータ)   (Thu, 29 Jun 2023 10:38:04 GMT)
  • こちらはテキストを用いた3Dモデルの編集

マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

  • A Survey on Multimodal Large Language Models [56.8]
    マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
    論文  参考訳(メタデータ)   (Fri, 23 Jun 2023 15:21:52 GMT)
  • マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
  • リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。
  • Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
    このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。 視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。 前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。 最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:31 GMT)
  • CVPRのマルチモーダルモデルのチュートリアル
  • スライド:https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用