2023年9月28日 – arXiv最新論文の紹介

Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 15:50:08 GMT)
Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

AceGPT, Localizing Large Language Models in Arabic [75.6]
本稿では,アラビア語に適した局所的大言語モデル(LLM)を開発するための命令的ニーズと方法論について考察する。本論文は、アラビア語テキストによる事前学習、ネイティブアラビア語命令を用いた教師付き微調整(SFT)、アラビア語でのGPT-4応答、AIフィードバックによる強化学習(RLAIF)を含むパッケージ化されたソリューションの概要を述べる。目的は、文化的に認識され、価値に整合したアラビア語のLLMを訓練することであり、アラビア語を話すコミュニティの多様なアプリケーション固有のニーズに役立てることである。
論文参考訳（メタデータ） (Thu, 21 Sep 2023 13:20:13 GMT)
アラビア語に対応したLLMを作る取り組み。英語以外のLLM構築とみてもとても参考になる。評価用データ重要だなあという印象。
リポジトリはGitHub – FreedomIntelligence/AceGPT

日: 2023年9月28日