コンテンツへスキップ
- LLM-Driven Self-Refinement for Embodied Drone Task Planning [29.2]
SRDroneは産業用ドローンの自己補充作業計画のために設計された新しいシステムである。 継続的状態評価手法を取り入れて、タスクの成果を堅牢かつ正確に決定する。 また、BT(hierarchical Behavior Tree)修正モデルを実装している。
論文 参考訳(メタデータ) (Thu, 21 Aug 2025 12:29:01 GMT)
- ドローンの行動計画生成、self-evolving BTs(behavior tree)と、ミッション実行中の継続的な状態評価と細かい動作ツリー(BT)による計画修正を行う点が特徴的。
- リポジトリはGitHub – ZXiiiC/SRDrone: Implementation of SRDrone
- MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.6]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。 MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。 マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (Mon, 11 Aug 2025 03:14:55 GMT)
- 「In this paper, we introduced MME-Emotion, a comprehensive multi-task benchmark for evaluating emotional intelligence in MLLMs, accompanied by a holistic evaluation suite. The assessment process was fully automated within a multi-agent system framework and thoroughly validated by human experts.」という感情に焦点を当てたベンチマークの提案。
- プロジェクトサイトはhttps://mme-emotion.github.io/とのこと。
- INTIMA: A Benchmark for Human-AI Companionship Behavior [7.4]
AIとの感情的な絆を形成する「AIの伴侶性」が注目され、特にユーザーとの関係の質が重要視されている。新たに提案されたINTIMAは、31の行動カテゴリから成るタクソノミーを持ち、AIの反応を評価する方法を提供する。この評価手法は、AIとの感情的なやり取りにおける一貫したアプローチの必要性を示唆しており、ユーザーの幸福に寄与するための境界設定と感情的支援の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (Mon, 04 Aug 2025 08:25:38 GMT)
- 「NTIMA To evaluate how language models respond to emotionally and relationally charged user behaviors, we introduce IN- TIMA: the Interactions and Machine Attachment Benchmark. INTIMA contains 368 benchmark prompts and is de- signed to assess whether LLMs reinforce, resist, or misinterpret companionship-seeking interactions, based on empirical patterns from real-world user data from Reddit and grounded in psychological and social science theory.」というベンチマーク。興味深い一方でこの手のタスクを測らないといけないくらい進化していることに驚く最近。
- リポジトリはAI-companionship/INTIMA · Datasets at Hugging Face