2023年10月9日 – arXiv最新論文の紹介

GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
論文参考訳（メタデータ） (Fri, 29 Sep 2023 17:34:51 GMT)
GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

Improved Baselines with Visual Instruction Tuning [79.3]
LLaVAの完全接続型ビジョン指向クロスモーダルコネクタは驚くほど強力で,データ効率がよいことを示す。 11のベンチマークで最先端を達成するための、より強力なベースラインを確立します。最後の13Bチェックポイントは1.2万の公開データのみを使用し、単一の8-A100ノードで1日でフルトレーニングを終えます。
論文参考訳（メタデータ） (Thu, 5 Oct 2023 17:59:56 GMT)
OSSのマルチモーダルモデル、LLaVA-1.5の論文。多くのベンチマークでSoTAを主張。
プロジェクトサイト、デモはLLaVA (llava-vl.github.io)、リポジトリはGitHub – haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.

Large Language Models as Analogical Reasoners [156.0]
アナロジカル・プロンプティング(Analogical Prompting)は、大規模言語モデルの推論プロセスを自動的にガイドするように設計されている。類推的推論にインスパイアされた我々のアプローチは、文脈における関連する経験や知識を自己生成するよう言語モデルに促す。実験の結果,本手法は様々な推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。
論文参考訳（メタデータ） (Tue, 3 Oct 2023 00:57:26 GMT)
過去の経験を思い出すようにPromptを構成、高い性能を達成とのこと。5 shot CoTを超えているのに驚き。LLM内の知識はどんな量なんだろう。
「Generating relevant and diverse exemplars is important」、「 Single-pass vs. independent exemplar generation: An alternative approach is to independently generate exemplars by separately sampling them from the LLM and then re-prompt the LLM with all the exemplars.」に対し、「single-pass prompt approach achieves comparable performance」、「Through experimentation, we have found that generating K = 3 to 5 exemplars works the best」などFindingsも興味深い。

日: 2023年10月9日