コンテンツへスキップ
- Using Large Language Models for Hyperparameter Optimization [31.5]
本稿では,高パラメータ最適化(HPO)において,基礎的大言語モデル(LLM)を用いて決定を行う。 実験的な評価により,LLMは従来のHPO法と同等あるいは同等に動作可能であることが示された。
論文 参考訳(メタデータ) (Thu, 7 Dec 2023 18:46:50 GMT)
- LLMを用いたハイパーパラメータのチューニング、「LLMs provide useful feedback for the error messages, which is infeasible with traditional approaches. 」というのはLLMの利点(直後に「However, this can suffer from the challenges that affect current language models, such as hallucinations」ともあるが。。。)。
- LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文 参考訳(メタデータ) (Mon, 11 Dec 2023 17:39:00 GMT)
- オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
- プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀
- Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
人為的なデータに基づく微調整言語モデル(LM)が普及している。 我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (Tue, 12 Dec 2023 23:16:16 GMT)
- LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
- 数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。
- Alignment for Honesty [113.4]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。 この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。 正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (Tue, 12 Dec 2023 06:10:42 GMT)
- 分からないときは分からない(質問に答えない)ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
- リポジトリはGitHub – GAIR-NLP/alignment-for-honesty
- LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.8]
本稿では,Large Language Model(LLM)がIOS(Artificial Intelligent Operating System)として機能する,革命的なAIOS-Agentエコシステムを構想する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 18:50:26 GMT)
- LLMをAI用のOSと捉えた時、既存OSとの対比やそれが実現した時の将来について整理した論文。刺激的な内容で面白い。
- Multimodal Large Language Models: A Survey [36.1]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。 本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。 実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。 最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (Wed, 22 Nov 2023 05:15:12 GMT)
- マルチモーダルな大規模言語モデルのサーベイ、いろいろあるなというのとテクニカルに重要なポイントがまとまっているのがうれしい。