LLASM: Large Language and Speech Model – arXiv最新論文の紹介

LLaSM: Large Language and Speech Model [11.9]
大言語・音声モデル(Large Language and Speech Model, LLaSM)は、多モーダル言語モデルである。初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
論文参考訳（メタデータ） (Wed, 30 Aug 2023 10:12:39 GMT)
LLM＋音声なマルチモーダルモデルの提案
Whisper で分散表現に変換Modal Adaptorを通したものをテキストとともに扱う形式、ベースのLLMは Chinese-LLAMA2-7Bとのこと。fine tuning用データはtext-to-speech APIで作成。性能評価が無いような気がするが、この方針でうまくいくのだろうか・・・？
リポジトリはGitHub – LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验，同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。、HuggingFaceはLinkSoul/LLaSM-Cllama2 · Hugging Face

コメントを残す

コメントを残す コメントをキャンセル