LLM – ページ 35 – arXiv最新論文の紹介

Using Large Language Models for Hyperparameter Optimization

Using Large Language Models for Hyperparameter Optimization [31.5]
本稿では,高パラメータ最適化(HPO)において,基礎的大言語モデル(LLM)を用いて決定を行う。実験的な評価により,LLMは従来のHPO法と同等あるいは同等に動作可能であることが示された。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 18:46:50 GMT)
LLMを用いたハイパーパラメータのチューニング、「LLMs provide useful feedback for the error messages, which is infeasible with traditional approaches. 」というのはLLMの利点（直後に「However, this can suffer from the challenges that affect current language models, such as hallucinations」ともあるが。。。）。

LLM360

LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 17:39:00 GMT)
オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀

Efficient Large Language Models: A Survey

Efficient Large Language Models: A Survey [37.9]
この調査は、効率的なLarge Language Models (LLMs) 研究の体系的で包括的なレビューを提供する。文献を3つの主要なカテゴリからなる分類学で整理し、異なるが相互に相互に繋がる効率的なLLMのトピックを網羅する。この調査で紹介された論文をコンパイルするGitHubリポジトリも作成しました。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 19:18:42 GMT)
LLMの効率化に関するサーベイ、手法開発が盛んでとても参考になる。
リポジトリはGitHub – AIoT-MLSys-Lab/Efficient-LLMs-Survey: Efficient Large Language Models: A Survey

Beyond Human Data

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 23:16:16 GMT)
LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

Alignment for Honesty

Alignment for Honesty [113.4]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 06:10:42 GMT)
分からないときは分からない（質問に答えない）ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
リポジトリはGitHub – GAIR-NLP/alignment-for-honesty

CyberSecEval

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.1]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 22:07:54 GMT)
セキュリティ関連のベンチマークとして「安全でないコードの生成」「サイバー攻撃の支援に対するコンプライアンス」を評価するもの。Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models | Research – AI at Metaの立ち上げに伴うもの。
「On average, LLMs suggested vulnerable code 30% of the time over CYBERSECEVAL ’s test cases. Furthermore, models complied with 53% of requests to assist in cyberattacks on average across all models and threat categories.」とのことで道はながそう。GPT-4であれば大丈夫という結果でもない。
リポジトリはPurpleLlama/CybersecurityBenchmarks at main · facebookresearch/PurpleLlama · GitHub

CogAgent

CogAgent: A Visual Language Model for GUI Agents [40.2]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
論文参考訳（メタデータ） (Thu, 14 Dec 2023 13:20:57 GMT)
GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.8]
本稿では,Large Language Model(LLM)がIOS(Artificial Intelligent Operating System)として機能する,革命的なAIOS-Agentエコシステムを構想する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 18:50:26 GMT)
LLMをAI用のOSと捉えた時、既存OSとの対比やそれが実現した時の将来について整理した論文。刺激的な内容で面白い。

Multimodal Large Language Models: A Survey

Multimodal Large Language Models: A Survey [36.1]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文参考訳（メタデータ） (Wed, 22 Nov 2023 05:15:12 GMT)
マルチモーダルな大規模言語モデルのサーベイ、いろいろあるなというのとテクニカルに重要なポイントがまとまっているのがうれしい。

TaskWeaver

TaskWeaver: A Code-First Agent Framework [51.8]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文参考訳（メタデータ） (Fri, 1 Dec 2023 07:42:56 GMT)
ChatGPT + Advanced data analyticsのような動作をするフレームワークの提案。リポジトリにあるビデオが分かりやすい。
リポジトリはGitHub – microsoft/TaskWeaver: A code-first agent framework for seamlessly planning and executing data analytics tasks.

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31