2023年10月2日 – arXiv最新論文の紹介

Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文参考訳（メタデータ） (Mon, 25 Sep 2023 20:59:33 GMT)
マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V（GPT-4V(ision) system card (openai.com)）と比較してみたところ。
リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face（ Apache License 2.0）など。

Qwen Technical Report [132.5]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。 Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文参考訳（メタデータ） (Thu, 28 Sep 2023 17:07:49 GMT)
Alibabaが開発したLLMのテクニカルレポート。パラメータサイズの割に性能が高い。
HuggingFaceリポジトリはQwen (Qwen) (huggingface.co)で先日14Bのモデルも公開されている。「Our code and checkpoints are open to research purpose, and they are allowed for commercial purposes. Check LICENSE for more details about the license. If you have requirements for commercial use, please fill out the form to apply.」とライセンスは独自。

日: 2023年10月2日