Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

  • Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.2]
    モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。 我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
    論文  参考訳(メタデータ)   (Sun, 10 Nov 2024 18:50:51 GMT)
  • 「WEBDREAMER uses LLMs to simulate outcomes for each candidate action (e g , “what would happen if I click this button?”) using natural language descriptions, and then evaluates these imagined outcomes to determine the optimal action at each step.」というシンプルな手法で「our model-based planning approach, WEBDREAMER, shows substantial improvement over reactive baselines and offers greater flexibility than tree search, which is often impossible in real-world websites.」という興味深い結果。挑戦的なタイトルをつけたくなる気持ちもわかる。
  • リポジトリはWebDreamer/README.md at main · OSU-NLP-Group/WebDreamer · GitHub

SPARTAN: SPARse TrANsformer World model

  • SPARTAN: A Sparse Transformer Learning Local Causation [63.3]
    因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。 本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。 オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
    論文  参考訳(メタデータ)   (Mon, 11 Nov 2024 11:42:48 GMT)
  • 「Conceptually, we argue that in order to perform efficient adaptation, world models should be structured to reflect the underlying sparse causal structure of the observed dynamics, and that these structures should be local.」のもと、「we propose SPARTAN, a structured world model that jointly performs dynamics model learning and causal discovery.」とのこと。
  • Language Models as Causal Effect Generators [44.8]
    制御可能な因果構造を持つ大規模言語モデル(LLM)に基づくデータ生成のためのフレームワークを提案する。 我々は、任意の言語モデルと有向非巡回グラフ(DAG)をシーケンス駆動構造因果モデル(SD-SCM)に変換する手順を定義する。
    論文  参考訳(メタデータ)   (Tue, 12 Nov 2024 18:50:35 GMT)
  • こちらはLLM+DAGでsequence-driven structural causal modelを作るアプローチ

因果グラフ+LLMという話はとても興味深い。

Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding 

  • Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.8]
    トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
    論文  参考訳(メタデータ)   (Wed, 13 Nov 2024 11:02:04 GMT)
  • 大規模なテーブルデータを推論するために木構造を用いるアプローチの提案
  • 「Starting with a large-scale input table, the process selectively condenses the data, emphasizing task-relevant information. Subsequently, the decomposed elements are methodically reorganized into a Table-Tree, a hierarchical structure designed to streamline and guide the subsequent reasoning process.」ということがプロンプトベースで可能なのも凄いなと思う。効果はありそう。

Hunyuan-Large

  • Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [83.4]
    Hunyuan-Largeは、オープンソースのTransformerベースのエキスパートモデルのミックスである。 我々は,Hunyuan-Largeの優れた性能を,様々なベンチマークで徹底的に評価する。 Hunyuan-Largeの主な実践は、以前の文献より大きい大規模合成データである。
    論文  参考訳(メタデータ)   (Tue, 05 Nov 2024 04:14:25 GMT)
  • 高性能かつモデルが公開されているタイプのLLM。389Bパラメータうち52BがアクティブなるMoEでLlama 3.1 70Bを超え、405Bと競合的と主張。比較的寛容なライセンスであるが「THIS LICENSE AGREEMENT DOES NOT APPLY IN THE EUROPEAN UNION AND IS EXPRESSLY LIMITED TO THE TERRITORY, AS DEFINED BELOW.」というのが特徴的。「This Agreement and any dispute arising out of or relating to it will be governed by the laws of the Hong Kong Special Administrative Region of the People’s Republic of China」との記載も。
  • リポジトリはGitHub – Tencent/Tencent-Hunyuan-Large、モデルはtencent/Tencent-Hunyuan-Large · Hugging Face

Number Cookbook: Number Understanding of Language Models and How to Improve It 

  • Number Cookbook: Number Understanding of Language Models and How to Improve It [64.0]
    大規模言語モデル(LLM)は、基本的な数値的な理解と処理において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。 本稿では,LLMの数値理解と処理能力(NUPA)について包括的に検討する。
    論文  参考訳(メタデータ)   (Wed, 06 Nov 2024 08:59:44 GMT)
  • LLMにおける numerical understanding and processing ability (NUPA)の分析と、その改善方法の検討。現状だとコード生成を介すなどツールを使うアプローチが有力だが、「1) we want to study the self-contained NUPA of LLMs, 2) calling external tools whenever encountering numbers increases the inference latency (Xu et al , 2024), and 3) we believe NUPA without tools is a necessary ability of AGI.」という点から本件ではツール利用が検討対象外となっている。
  • 現時点では「We investigate NUPA of LLMs and introduce a comprehensive benchmark, the NUPA test, to reveal that numerical problems remain challenging for modern LLMs.」とのこと。やはり難しい問題。実用上はコード生成を介すなどして対応できなくはないが・・・。
  • リポジトリはGitHub – GraphPKU/number_cookbook

Vulnerability of LLMs to Vertically Aligned Text Manipulations

  • Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.7]
    大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。 エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。 デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
    論文  参考訳(メタデータ)   (Sat, 26 Oct 2024 00:16:08 GMT)
  • いわゆる縦書きが分類タスクに与える影響とその緩和策を検討した論文。英語がターゲットになっているが、横書き・縦書き混在が割と普通にある日本語での検証を行うと面白そうに思う。
  • 「the model’s enhanced performance with few-shot learning, particularly when compared to the CoT output」とFew shotが比較的有効とのこと。

NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks

Two are better than one: Context window extension with multi-grained self-injection

Improving Causal Reasoning in Large Language Models: A Survey、LLM-based Optimization of Compound AI Systems: A Survey

因果推論や最適化の分野でもLLMが活用されつつある。

  • LLM-based Optimization of Compound AI Systems: A Survey [64.4]
    複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。 近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。 本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 18:06:25 GMT)

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions 

  • AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [47.7]
    AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。 データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。 AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
    論文  参考訳(メタデータ)   (Sun, 27 Oct 2024 12:44:25 GMT)
  • Kaggleのようなデータ分析の自動化。対象としているタスク(分析フェーズ)は「background understanding, preliminary exploratory data analysis, data cleaning (DC), in-depth exploratory data analysis, feature engineering (FE), and model building, validation, and prediction (MBVP).」で通常のAutoMLより広い、対象データはテーブルデータのよう。
  • 「As our analysis relies on GPT-4o, which is trained on data available until October 2023, it includes most of the Classic Kaggle competitions.To evaluate the generalization capabilities of AutoKaggle, we therefore focus on competitions initiated after 2024.」とLeakには気を使っているとはいえ、「Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.」という言いきりは凄い。もっとも、今のLLMの性能からして適切なパイプラインを組めば解けそうな問題であるという感覚はある。
  • リポジトリはGitHub – multimodal-art-projection/AutoKaggle