コンテンツへスキップ
- AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。 その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 15:41:22 GMT)
- audio-language なベンチマーク。Foundation benchmark(基礎的タスク、emotion recognition, acoustic scene classification, music QAなど)とChat benchmark(実世界を想定した会話応答)で構成される。評価はGPT-4ベース。
- 「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。
- Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations [13.1]
本稿では,構造化チェーン・オブ・シークレット (SCoT) を用いて,コンテントグラウンドによる質問応答会話を生成する手法を提案する。 実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。
論文 参考訳(メタデータ) (Mon, 19 Feb 2024 01:49:53 GMT)
- 「At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e g , content reading and utterance generation, can be executed in their own dedicated states.」
- 上記FormalLLMと組み合わさらないかなと思わなくもない。