LLM360

  • LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
    LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 17:39:00 GMT)
  • オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
  • プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

  • Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
    このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。 高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。 また、解決を保障する科学的、技術的課題も検討している。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 10:46:53 GMT)
  • 自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
  • リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

Adapters

  • Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning [109.3]
    本稿では,大規模言語モデルにおけるparameter-efficient な modular transfer learning を統一したオープンソースのライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 13:53:26 GMT)
  • HuggingFaceのTransformersライブラリとともに使えるチューニング用ライブラリ。多様な手法に対応しており便利そう。Full fine tuningと比べた性能表も参考になる。
  • リポジトリはGitHub – adapter-hub/adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

DocXChain

  • DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
    DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。 テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 02:49:09 GMT)
  • Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
  • リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub

Mistral 7B

XGen-7B Technical Report

先週、tiiuae/falcon-180B · Hugging Faceが公開されるなどLLM関連のニュースは多く、様々な研究機関がしのぎを削っている。

AutoGluon-TimeSeries

SILO

  • SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
    推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。 データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
    論文  参考訳(メタデータ)   (Tue, 8 Aug 2023 17:58:15 GMT)
  • 著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
  • 興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
  • リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository

Llama 2

  • Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
    Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
    論文  参考訳(メタデータ)   (Wed, 19 Jul 2023 17:08:59 GMT)
  • Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU(7ooM)がある場合は別途申請が必要、出力を他のモデルの強化に使えない(You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).)などApache-2ライセンスなどとは異なる点に注意が必要。
  • StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
  • 公式サイトはLlama 2 – Meta AI huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)

PolyLM

  • PolyLM: An Open Source Polyglot Large Language Model [57.6]
    我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。 その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。 さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Jul 2023 09:00:37 GMT)
  • オープンソースの大規模LLM、日本語にも対応しているようで期待大
  • 「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」 など学習に関する情報もとても有益。
  • リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face

商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET