- LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文 参考訳(メタデータ) (Mon, 11 Dec 2023 17:39:00 GMT) - オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
- プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀
タグ: OSS
Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future
- Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。 高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。 また、解決を保障する科学的、技術的課題も検討している。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 10:46:53 GMT) - 自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
- リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System
Adapters
- Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning [109.3]
本稿では,大規模言語モデルにおけるparameter-efficient な modular transfer learning を統一したオープンソースのライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
論文 参考訳(メタデータ) (Sat, 18 Nov 2023 13:53:26 GMT) - HuggingFaceのTransformersライブラリとともに使えるチューニング用ライブラリ。多様な手法に対応しており便利そう。Full fine tuningと比べた性能表も参考になる。
- リポジトリはGitHub – adapter-hub/adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning
DocXChain
- DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。 テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 02:49:09 GMT) - Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
- リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub
Mistral 7B
- Mistral 7B [62.2]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。 また、命令に従うように微調整されたモデルも提供します。 Mistral 7B — Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (Tue, 10 Oct 2023 17:54:58 GMT) - 小規模パラメータで高性能と噂のLLM、Apache 2.0 licenseとオープンなモデル
- ブログMistral 7B | Mistral AI | Open source models、HuggingFacemistralai (Mistral AI_) (huggingface.co)以外にドキュメントDeploy with SkyPilot | Mistral AI Large Language Modelsも充実している。
XGen-7B Technical Report
- XGen-7B Technical Report [138.7]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。 研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文 参考訳(メタデータ) (Thu, 7 Sep 2023 02:20:03 GMT) - オープンソースかつ長いシーケンス長を入力可能なLLM。XGen-7Bの論文。パラメータサイズに比べて性能が高い。
- リポジトリはGitHub – salesforce/xgen: Salesforce open-source LLMs with 8k sequence length.、いくつかのバリエーションがあるが、Salesforce/xgen-7b-8k-base · Hugging FaceはApache-2ライセンスと非常に使いやすいライセンスである。
先週、tiiuae/falcon-180B · Hugging Faceが公開されるなどLLM関連のニュースは多く、様々な研究機関がしのぎを削っている。
AutoGluon-TimeSeries
- AutoGluon-TimeSeries: AutoML for Probabilistic Time Series Forecasting [80.1]
AutoGluon-TimeSeriesは、確率的時系列予測のためのオープンソースのAutoMLライブラリである。 3行のPythonコードで正確なポイントと定量予測を生成することができる。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 13:28:59 GMT) - OSSの時系列予測ライブラリの提案。AutoGluonの時系列対応バージョン。
- リポジトリはGitHub – autogluon/autogluon: AutoGluon: AutoML for Image, Text, Time Series, and Tabular Data
- AutoML 2023も面白そうな発表が多い。
SILO
- SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。 データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (Tue, 8 Aug 2023 17:58:15 GMT) - 著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
- 興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
- リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository
Llama 2
- Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 17:08:59 GMT) - Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU(7ooM)がある場合は別途申請が必要、出力を他のモデルの強化に使えない(You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).)などApache-2ライセンスなどとは異なる点に注意が必要。
- StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
- 公式サイトはLlama 2 – Meta AI huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)
PolyLM
- PolyLM: An Open Source Polyglot Large Language Model [57.6]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。 その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。 さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (Wed, 12 Jul 2023 09:00:37 GMT) - オープンソースの大規模LLM、日本語にも対応しているようで期待大
- 「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」 など学習に関する情報もとても有益。
- リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face
商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET