Data Selection via Optimal Control for Language Models

  • Data Selection via Optimal Control for Language Models [134.7]
    本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。 PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。 PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
    論文  参考訳(メタデータ)   (Wed, 09 Oct 2024 17:06:57 GMT)
  • 「by treating data selection as the control variables (i.e., whether a data point is included in pre-training), the LM pre-training process as the dynamic system, and the LM’s downstream performance as the objective, we leverage Pontryagin’s Maximum Principle (PMP; 63) to derive the necessary conditions for optimal data selection in theory.」という制御理論を応用したデータセレクション手法の提案。「The overhead of running PDS to select data is only about 1/9 of that of pre-training a 1.7B model.」と実用的に思える。
  • プロジェクトサイトはAdvancing AI for Humanity (thegenerality.com)、リポジトリはLMOps/data_selection at main · microsoft/LMOps · GitHub

Agent S: An Open Agentic Framework that Uses Computers Like a Human 

  • Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.2]
    我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:43:51 GMT)
  • 人が操作するようにコンピュータを操作するエージェントフレームワークの提案
  • リポジトリはGitHub – simular-ai/Agent-S: Official codebase for Agent S, a open agentic framework that uses computers like a human

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 

  • GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [24.3]
    GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。 以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:36:37 GMT)
  • 「We introduce GSM-Symbolic, an enhanced benchmark that generates diverse variants of GSM8K questions using symbolic templates」というベンチマークの紹介であるが、「We show that LLMs exhibit more robustness to changes in superficial elements like proper names but are very sensitive to changes in numerical values」というのはなかなか衝撃的な結果。
  • 「To create the templates, we add seemingly relevant but ultimately inconsequential statements to GSM-Symbolic templates.」という無意味な情報を加えたGSM-NoOpでは結果がさらに悪くなるようで、単純なLeakでもない難しさがある。

A Survey on the Honesty of Large Language Models 

  • A Survey on the Honesty of Large Language Models [115.8]
    正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。 将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 14:34:54 GMT)
  • 「Honesty is a fundamental principle for aligning large language models (LLMs) with human values, requiring these models to recognize what they know and don’t know and be able to faithfully express their knowledge.」から始まるサーベイ。
  • リポジトリはGitHub – SihengLi99/LLM-Honesty-Survey

Loki: An Open-Source Tool for Fact Verification 

  • Loki: An Open-Source Tool for Fact Verification [49.5]
    Lokiは、誤情報の増加に対処するために設計されたオープンソースのツールだ。 長いテキストを個々のクレームに分割し、チェックの信頼性を評価し、クエリを生成し、エビデンスを取得し、クレームを検証する。 LokiはMITライセンスでリリースされており、GitHubから入手できる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:52:41 GMT)
  • OSSのファクトチェックツール、チェックすべきファクト(主張)の分解後、WEB検索結果を用いてファクトチェックを行うアプローチ
  • リポジトリはGitHub – Libr-AI/OpenFactVerification: Loki: Open-source solution designed to automate the process of verifying factuality

Small Language Models: Survey, Measurements, and Insights 

  • Small Language Models: Survey, Measurements, and Insights [21.2]
    小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。 59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 06:36:56 GMT)
  • 「The weight range of SLMs in this work is defined between 100M to 5B.」という定義のもとのSLMに関するサーベイ。
  • リポジトリはGitHub – UbiquitousLearning/SLM_Survey

A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

  • Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
    具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 00:30:11 GMT)
  • 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
  • リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

LLaVA-Critic: Learning to Evaluate Multimodal Models

  • LLaVA-Critic: Learning to Evaluate Multimodal Models [110.1]
    本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:36:33 GMT)
  • マルチモーダルなタスクに対しての評価を行うモデルの提案。データ構築もMLLMを多用するアプローチになっていて興味深いが、ライセンス的に大丈夫なんだろうかという若干の不安。
  • プロジェクトサイトはLLaVA-OneVision: Easy Visual Task Transfer (llava-vl.github.io)

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

  • Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
    さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。 これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。 様々な難易度にまたがる性能と一般化能力を総合的に分析する。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 03:49:56 GMT)
  • 「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
  • リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face