OSS – ページ 5 – arXiv最新論文の紹介

GemmaとMistral next

先週もLLM界隈は盛り上がっていた。注目すべきはGoogleのオープンなモデルであるGemmaとMistralがステルスでリリースしたというMistral nextの話題。両方とも日本語を扱えそうで興味深々である。そろそろ翻訳ベンチマークを再開しようと思わなくもない。

Gemma: Google introduces new state-of-the-art open models (blog.google)
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。Gemmaモデルは、言語理解、推論、安全のための学術ベンチマーク全体で強力なパフォーマンスを示す。

mistral-next: First Impressions of Mistral’s Latest Stealth Release | by Ingrid Stevens | Feb, 2024 | Medium
※ Chat with Open Large Language Models (lmsys.org)のDirect chatからmistral-nextを使用可能。
Mediumの記事によると数学が得意とのこと。試した感じ日本語応答も可能そう。

AYA datasetとAYA model

多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 18:51:49 GMT)
リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 17:34:13 GMT)
リポジトリはCohereForAI/aya-101 · Hugging Face

DolmaとOLMo

オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい（CommonCrawlがデータの多くを占めている）。それ用いてApache-2のLLMがリリースされている。

OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。

データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Face、allenai/OLMo-7B · Hugging Face、allenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文参考訳（メタデータ） (Wed, 31 Jan 2024 20:29:50 GMT)

OLMo: Accelerating the Science of Language Models [166.1]
言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
論文参考訳（メタデータ） (Thu, 1 Feb 2024 18:28:55 GMT)

H2O-Danube-1.8B Technical Report

H2O-Danube-1.8B Technical Report [2.8]
H2O-Danube-1.8Bは1Tトークンで訓練された1.8B言語モデルである。 H2O-Danube-1.8BをApache 2.0ライセンスで公開しています。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 08:45:08 GMT)
OSSで小型、しかし、性能が高めのLLMの提案
h2oai/h2o-danube-1.8b-base · Hugging Face

Orion-14B: Open-source Multilingual Large Language Models

Orion-14B: Open-source Multilingual Large Language Models [15.6]
我々は,140億のパラメータを持つ多言語大言語モデルの集合であるOrion-14Bを紹介する。データスケジューリング手法を用いて、英語、中国語、日本語、韓国語、その他の言語のテキストから得られた2.5兆トークンの多種多様なコーパスに基づいて基礎モデルを訓練する。評価の結果,Orion-14Bは様々なタスクにおいて最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (Sat, 20 Jan 2024 12:29:27 GMT)
日本語でも高性能として話題になったOrion-14Bの論文、コードはApache-2ライセンスだがウェイトは独自ライセンス。
リポジトリはOrionStarAI/Orion: Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型，包括对话模型，长文本模型，量化模型，RAG微调模型，Agent微调模型等。 (github.com)、日本語のプレスリリースも出ているOrionStarはオープンソースのマルチリンガルLLM「Orion-14B」をリリースしました。

Mixtral of Experts

Mixtral of Experts [57.4]
Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
論文参考訳（メタデータ） (Mon, 8 Jan 2024 18:47:34 GMT)
高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
Mixtral of experts | Mistral AI | Open-weight models

LLM360

LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 17:39:00 GMT)
オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。また、解決を保障する科学的、技術的課題も検討している。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 10:46:53 GMT)
自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

Adapters

Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning [109.3]
本稿では,大規模言語モデルにおけるparameter-efficient な modular transfer learning を統一したオープンソースのライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
論文参考訳（メタデータ） (Sat, 18 Nov 2023 13:53:26 GMT)
HuggingFaceのTransformersライブラリとともに使えるチューニング用ライブラリ。多様な手法に対応しており便利そう。Full fine tuningと比べた性能表も参考になる。
リポジトリはGitHub – adapter-hub/adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

DocXChain

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 02:49:09 GMT)
Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31