コンテンツへスキップ
- GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding [38.5]
GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。 本稿では,マルチモーダル感情理解におけるGPT-4Vの能力について定量的に評価する。
論文 参考訳(メタデータ) (Thu, 7 Dec 2023 13:27:37 GMT)
- GPT-4による感情分類、タスクやドメインによってはsupervisedな手法を超えている。頑健性についても検証が行われており「This resilience to color space changes suggests that GPT-4V is inherently robust in this regard.」とのこと。一方で「However, GPT-4V performs poorly in micro-expression recognition (see Table 5), which indicates that GPT-4V is currently tailored for general domains.」との指摘も。なかなか悩ましい結果ではあるが、一般用途では強力に使えそうに思える。
- リポジトリはGitHub – zeroQiaoba/gpt4v-emotion: GPT-4V with Emotion
- Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.0]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。 本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文 参考訳(メタデータ) (Mon, 4 Dec 2023 11:53:56 GMT)
- モデル間通信をしながら回答を導くフレームワークの提案。ChatEval – arXiv最新論文の紹介 (devneko.jp)に近い動作のように思える。
- 性能は通常のCoTよりも良いとのこと。コスト分析があるのも面白い。