2024年3月13日 – arXiv最新論文の紹介

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral [23.7]
我々は,中国語能力の向上を図り,さらに事前学習と微調整を取り入れた中国語・ミクストラル・中国語・ミクストラル・インストラクションを提案する。実験結果から,我々の中国・ミクストラル・中国・ミクストラル・インストラクションは,本来の英語能力を維持しつつ,中国語の理解と生成能力を向上させることができた。
論文参考訳（メタデータ） (Mon, 4 Mar 2024 09:01:10 GMT)
Mixtralの中国語対応、Llama2ベースの成果を超える性能。
リポジトリはChinese-Mixtral/README_EN.md at main · ymcui/Chinese-Mixtral (github.com)、weightも公開されているChinese-Mixtral/README_EN.md at main · ymcui/Chinese-Mixtral (github.com)

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.2]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。スパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。画像分類における評価では,VRWKVはViTの分類性能と著しく高速で,メモリ使用量が少ないことが示されている。
論文参考訳（メタデータ） (Mon, 4 Mar 2024 18:46:20 GMT)
RWKVの画像分野への応用。Vision Transformerと比べ性能的には同等、メモリ・速度の効率は大幅に優れているように見える。
リポジトリはOpenGVLab/Vision-RWKV: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures (github.com)

Large Multimodal Agents: A Survey [78.8]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (Fri, 23 Feb 2024 06:04:23 GMT)
研究が流行っているLLM＆マルチモーダル＆エージェントのサーベイ
リポジトリも参考になる　jun0wanan/awesome-large-multimodal-agents (github.com)