OSS – ページ 6 – arXiv最新論文の紹介

Mistral 7B

Mistral 7B [62.2]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。また、命令に従うように微調整されたモデルも提供します。 Mistral 7B — Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文参考訳（メタデータ） (Tue, 10 Oct 2023 17:54:58 GMT)
小規模パラメータで高性能と噂のLLM、Apache 2.0 licenseとオープンなモデル
ブログMistral 7B | Mistral AI | Open source models、HuggingFacemistralai (Mistral AI_) (huggingface.co)以外にドキュメントDeploy with SkyPilot | Mistral AI Large Language Modelsも充実している。

XGen-7B Technical Report [138.7]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 02:20:03 GMT)
オープンソースかつ長いシーケンス長を入力可能なLLM。XGen-7Bの論文。パラメータサイズに比べて性能が高い。
リポジトリはGitHub – salesforce/xgen: Salesforce open-source LLMs with 8k sequence length.、いくつかのバリエーションがあるが、Salesforce/xgen-7b-8k-base · Hugging FaceはApache-2ライセンスと非常に使いやすいライセンスである。

先週、tiiuae/falcon-180B · Hugging Faceが公開されるなどLLM関連のニュースは多く、様々な研究機関がしのぎを削っている。

AutoGluon-TimeSeries: AutoML for Probabilistic Time Series Forecasting [80.1]
AutoGluon-TimeSeriesは、確率的時系列予測のためのオープンソースのAutoMLライブラリである。 3行のPythonコードで正確なポイントと定量予測を生成することができる。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 13:28:59 GMT)
OSSの時系列予測ライブラリの提案。AutoGluonの時系列対応バージョン。
リポジトリはGitHub – autogluon/autogluon: AutoGluon: AutoML for Image, Text, Time Series, and Tabular Data
AutoML 2023も面白そうな発表が多い。

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文参考訳（メタデータ） (Tue, 8 Aug 2023 17:58:15 GMT)
著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository

Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文参考訳（メタデータ） (Wed, 19 Jul 2023 17:08:59 GMT)
Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU（7ooM）がある場合は別途申請が必要、出力を他のモデルの強化に使えない（You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).）などApache-2ライセンスなどとは異なる点に注意が必要。
StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
公式サイトはLlama 2 – Meta AI　huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)

PolyLM: An Open Source Polyglot Large Language Model [57.6]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (Wed, 12 Jul 2023 09:00:37 GMT)
オープンソースの大規模LLM、日本語にも対応しているようで期待大
「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」　など学習に関する情報もとても有益。
リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face

商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET

h2oGPT: Democratizing Large Language Models [1.8]
h2oGPTは、ジェネレーティブ事前学習トランスフォーマー(GPT)に基づいたLarge Language Models(LLM)の作成と使用のためのオープンソースのコードリポジトリのスイートである。このプロジェクトの目的は、クローズドソースのGPTに対して、世界で最高のオープンソース代替品を作ることです。
論文参考訳（メタデータ） (Tue, 13 Jun 2023 22:19:53 GMT)
GPT（チャットボットとドキュメント検索がユースケース）構築のためのフレームワークの提案。AutoMLツールとして有名なh2oによるオープンな実装で、主要なOSS基盤モデルをチューニングした結果もダウンロード可能。性能評価がモデルカードに含まれているのがありがたいのとLangChainなどとの連携も可能そう。
リポジトリはGitHub – h2oai/h2ogpt: Join us at H2O.ai to make the world’s best open-source GPT with document and image Q&A, 100% private chat, no data leaks, Apache 2.0 https://arxiv.org/pdf/2306.08161.pdf