AYA datasetとAYA model

多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI

  • Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
    既存のデータセットはほとんどが英語で書かれている。 私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。 既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 18:51:49 GMT)
  • リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face
  • Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
    Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。 我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 17:34:13 GMT)
  • リポジトリはCohereForAI/aya-101 · Hugging Face

DolmaとOLMo

オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい(CommonCrawlがデータの多くを占めている)。それ用いてApache-2のLLMがリリースされている。

OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。

データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Faceallenai/OLMo-7B · Hugging Faceallenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)

  • Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
    われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。 本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 20:29:50 GMT)
  • OLMo: Accelerating the Science of Language Models [166.1]
    言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。 このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 18:28:55 GMT)

H2O-Danube-1.8B Technical Report

Orion-14B: Open-source Multilingual Large Language Models

Mixtral of Experts 

  • Mixtral of Experts [57.4]
    Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 18:47:34 GMT)
  • 高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
  • Mixtral of experts | Mistral AI | Open-weight models

LLM360

  • LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
    LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 17:39:00 GMT)
  • オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
  • プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

  • Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
    このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。 高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。 また、解決を保障する科学的、技術的課題も検討している。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 10:46:53 GMT)
  • 自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
  • リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

Adapters

  • Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning [109.3]
    本稿では,大規模言語モデルにおけるparameter-efficient な modular transfer learning を統一したオープンソースのライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 13:53:26 GMT)
  • HuggingFaceのTransformersライブラリとともに使えるチューニング用ライブラリ。多様な手法に対応しており便利そう。Full fine tuningと比べた性能表も参考になる。
  • リポジトリはGitHub – adapter-hub/adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

DocXChain

  • DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
    DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。 テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 02:49:09 GMT)
  • Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
  • リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub

Mistral 7B