- LLaSM: Large Language and Speech Model [11.9]
大言語・音声モデル(Large Language and Speech Model, LLaSM)は、多モーダル言語モデルである。 初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
論文 参考訳(メタデータ) (Wed, 30 Aug 2023 10:12:39 GMT) - LLM+音声なマルチモーダルモデルの提案
- Whisper で分散表現に変換Modal Adaptorを通したものをテキストとともに扱う形式、ベースのLLMは Chinese-LLAMA2-7Bとのこと。fine tuning用データはtext-to-speech APIで作成。性能評価が無いような気がするが、この方針でうまくいくのだろうか・・・?
- リポジトリはGitHub – LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。、HuggingFaceはLinkSoul/LLaSM-Cllama2 · Hugging Face
日: 2023年9月8日
Computation-efficient Deep Learning for Computer Vision: A Survey
- Computation-efficient Deep Learning for Computer Vision: A Survey [121.8]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。 ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。 新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (Sun, 27 Aug 2023 03:55:28 GMT) - 効率的な画像処理モデルに関するサーベイ
- 「Efficient Backbone Models / Dynamic Deep Networks」→「Task-specialized Efficient Models」→「Model Compression Techniques」→「Efficient Deployment on Hardware」と様々なレイヤで調査がされている。