Language Is Not All You Need

  • Language Is Not All You Need: Aligning Perception with Language Models [110.5]
    Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。 我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。 また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Mar 2023 11:04:51 GMT)
  • 言語モデルの限界(テキスト)を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能(Flamingoと競合)。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
  •  KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
  • 論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です