- AutoGluon-TimeSeries: AutoML for Probabilistic Time Series Forecasting [80.1]
AutoGluon-TimeSeriesは、確率的時系列予測のためのオープンソースのAutoMLライブラリである。 3行のPythonコードで正確なポイントと定量予測を生成することができる。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 13:28:59 GMT) - OSSの時系列予測ライブラリの提案。AutoGluonの時系列対応バージョン。
- リポジトリはGitHub – autogluon/autogluon: AutoGluon: AutoML for Image, Text, Time Series, and Tabular Data
- AutoML 2023も面白そうな発表が多い。
タグ: OSS
SILO
- SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。 データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (Tue, 8 Aug 2023 17:58:15 GMT) - 著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
- 興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
- リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository
Llama 2
- Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 17:08:59 GMT) - Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU(7ooM)がある場合は別途申請が必要、出力を他のモデルの強化に使えない(You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).)などApache-2ライセンスなどとは異なる点に注意が必要。
- StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
- 公式サイトはLlama 2 – Meta AI huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)
PolyLM
- PolyLM: An Open Source Polyglot Large Language Model [57.6]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。 その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。 さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (Wed, 12 Jul 2023 09:00:37 GMT) - オープンソースの大規模LLM、日本語にも対応しているようで期待大
- 「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」 など学習に関する情報もとても有益。
- リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face
商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET
h2oGPT
- h2oGPT: Democratizing Large Language Models [1.8]
h2oGPTは、ジェネレーティブ事前学習トランスフォーマー(GPT)に基づいたLarge Language Models(LLM)の作成と使用のためのオープンソースのコードリポジトリのスイートである。 このプロジェクトの目的は、クローズドソースのGPTに対して、世界で最高のオープンソース代替品を作ることです。
論文 参考訳(メタデータ) (Tue, 13 Jun 2023 22:19:53 GMT) - GPT(チャットボットとドキュメント検索がユースケース)構築のためのフレームワークの提案。AutoMLツールとして有名なh2oによるオープンな実装で、主要なOSS基盤モデルをチューニングした結果もダウンロード可能。性能評価がモデルカードに含まれているのがありがたいのとLangChainなどとの連携も可能そう。
- リポジトリはGitHub – h2oai/h2ogpt: Join us at H2O.ai to make the world’s best open-source GPT with document and image Q&A, 100% private chat, no data leaks, Apache 2.0 https://arxiv.org/pdf/2306.08161.pdf