Geminiの評価に関する論文が出ている。
- An In-depth Look at Gemini’s Language Abilities [49.9]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。 この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (Mon, 18 Dec 2023 18:47:42 GMT) - Gemini Proに対する主として言語能力の評価。「we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked.」とのこと。Gemini ProはGPT-3.5と競合的、GPT-4と比べられていたのは主にGemini Ultraなので結果に違和感はない。
- リポジトリはGitHub – neulab/gemini-benchmark
- A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise [78.5]
GeminiはGoogleの最新かつ最も有能なMLLMで、マルチモダリティのためにゼロから構築されています。 Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか? Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、その上限を評価する。
論文 参考訳(メタデータ) (Wed, 20 Dec 2023 12:40:47 GMT) - こちらはマルチモーダルでの評価。比較対象は上記と同じでGemini Proだであることに要注意。「The qualitative results indicate that Gemini is indeed a strong challenger to GPT-4V, given its superior multi-modal reasoning capacity.」と評価
- リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.