AIR-Bench: Audio InstRuction Benchmark

  • AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
    AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。 その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 15:41:22 GMT)
  • audio-language なベンチマーク。Foundation benchmark(基礎的タスク、emotion recognition, acoustic scene classification, music QAなど)とChat benchmark(実世界を想定した会話応答)で構成される。評価はGPT-4ベース。
  • 「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。

Formal-LLMとStructured Chain-of-Thought Prompting

  • Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [42.4]
    大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。 しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。 本稿では,自然言語の表現性と形式言語の精度を統合することで,LLMをベースとしたエージェントのための新しいフォーマルLLM’フレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 4 Feb 2024 22:16:48 GMT)
  • LLMを用いたAIエージェントと形式言語の融合。「another important problem to explore in the future is LLM plan verification based on formal language.」と書かれている通り形式検証に持ち込めると面白いと思う。
  • リポジトリはagiresearch/Formal-LLM: Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents (github.com)
  • Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations [13.1]
    本稿では,構造化チェーン・オブ・シークレット (SCoT) を用いて,コンテントグラウンドによる質問応答会話を生成する手法を提案する。 実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 01:49:53 GMT)
  • 「At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e g , content reading and utterance generation, can be executed in their own dedicated states.」
  • 上記FormalLLMと組み合わさらないかなと思わなくもない。