コンテンツへスキップ
- Holistic Evaluation of Text-To-Image Models [153.5]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。 テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。 以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (Tue, 7 Nov 2023 19:00:56 GMT)
- 「text-image alignment, image quality, aesthetics, originality, reasoning, knowledge, bias, toxicity, fairness, robustness, multilinguality, and efficiency」と12の側面での画像生成AIの評価。結果は「Overall, DALL-E 2 appears to be a versatile performer across human metrics.However, no single model emerges as the top performer in all aspects.」とのこと。
- リポジトリはGitHub – stanford-crfm/helm: Holistic Evaluation of Language Models (HELM), a framework to increase the transparency of language models (https://arxiv.org/abs/2211.09110).、Holistic Evaluation of Text-To-Image Models (HEIM) (stanford.edu)
- GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
論文 参考訳(メタデータ) (Mon, 13 Nov 2023 18:53:37 GMT)
- スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
- リポジトリはGitHub – zzxslp/MM-Navigator