2023年9月20日 – arXiv最新論文の紹介

LLMのAgents

Agents: An Open-source Framework for Autonomous Language Agents [97.0]
我々は、言語エージェントを人工知能への有望な方向と見なしている。 Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文参考訳（メタデータ） (Thu, 14 Sep 2023 17:18:25 GMT)
オープンソースの言語エージェントフレームワーク
リポジトリはGitHub – aiwaves-cn/agents: An Open-source Framework for Autonomous Language Agents、The Agent Hubなる取り組みも予定しているようで期待大

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (Fri, 8 Sep 2023 19:34:05 GMT)
Cohere for AIによるデータ品質向上に関する報告
パープレキシティを用いるシンプル（？）な手法が高性能とのこと