2023年12月13日 – arXiv最新論文の紹介

GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding

GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding [38.5]
GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。本稿では,マルチモーダル感情理解におけるGPT-4Vの能力について定量的に評価する。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 13:27:37 GMT)
GPT-4による感情分類、タスクやドメインによってはsupervisedな手法を超えている。頑健性についても検証が行われており「This resilience to color space changes suggests that GPT-4V is inherently robust in this regard.」とのこと。一方で「However, GPT-4V performs poorly in micro-expression recognition (see Table 5), which indicates that GPT-4V is currently tailored for general domains.」との指摘も。なかなか悩ましい結果ではあるが、一般用途では強力に使えそうに思える。
リポジトリはGitHub – zeroQiaoba/gpt4v-emotion: GPT-4V with Emotion

Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.0]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文参考訳（メタデータ） (Mon, 4 Dec 2023 11:53:56 GMT)
モデル間通信をしながら回答を導くフレームワークの提案。ChatEval – arXiv最新論文の紹介 (devneko.jp)に近い動作のように思える。
性能は通常のCoTよりも良いとのこと。コスト分析があるのも面白い。

TaskWeaver: A Code-First Agent Framework [51.8]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文参考訳（メタデータ） (Fri, 1 Dec 2023 07:42:56 GMT)
ChatGPT + Advanced data analyticsのような動作をするフレームワークの提案。リポジトリにあるビデオが分かりやすい。
リポジトリはGitHub – microsoft/TaskWeaver: A code-first agent framework for seamlessly planning and executing data analytics tasks.