- Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.2]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。 我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文 参考訳(メタデータ) (Sun, 10 Nov 2024 18:50:51 GMT) - 「WEBDREAMER uses LLMs to simulate outcomes for each candidate action (e g , “what would happen if I click this button?”) using natural language descriptions, and then evaluates these imagined outcomes to determine the optimal action at each step.」というシンプルな手法で「our model-based planning approach, WEBDREAMER, shows substantial improvement over reactive baselines and offers greater flexibility than tree search, which is often impossible in real-world websites.」という興味深い結果。挑戦的なタイトルをつけたくなる気持ちもわかる。
- リポジトリはWebDreamer/README.md at main · OSU-NLP-Group/WebDreamer · GitHub
タグ: LLM
SPARTAN: SPARse TrANsformer World model
- SPARTAN: A Sparse Transformer Learning Local Causation [63.3]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。 本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。 オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (Mon, 11 Nov 2024 11:42:48 GMT) - 「Conceptually, we argue that in order to perform efficient adaptation, world models should be structured to reflect the underlying sparse causal structure of the observed dynamics, and that these structures should be local.」のもと、「we propose SPARTAN, a structured world model that jointly performs dynamics model learning and causal discovery.」とのこと。
- Language Models as Causal Effect Generators [44.8]
制御可能な因果構造を持つ大規模言語モデル(LLM)に基づくデータ生成のためのフレームワークを提案する。 我々は、任意の言語モデルと有向非巡回グラフ(DAG)をシーケンス駆動構造因果モデル(SD-SCM)に変換する手順を定義する。
論文 参考訳(メタデータ) (Tue, 12 Nov 2024 18:50:35 GMT) - こちらはLLM+DAGでsequence-driven structural causal modelを作るアプローチ
因果グラフ+LLMという話はとても興味深い。
Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding
- Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.8]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文 参考訳(メタデータ) (Wed, 13 Nov 2024 11:02:04 GMT) - 大規模なテーブルデータを推論するために木構造を用いるアプローチの提案
- 「Starting with a large-scale input table, the process selectively condenses the data, emphasizing task-relevant information. Subsequently, the decomposed elements are methodically reorganized into a Table-Tree, a hierarchical structure designed to streamline and guide the subsequent reasoning process.」ということがプロンプトベースで可能なのも凄いなと思う。効果はありそう。
Hunyuan-Large
- Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [83.4]
Hunyuan-Largeは、オープンソースのTransformerベースのエキスパートモデルのミックスである。 我々は,Hunyuan-Largeの優れた性能を,様々なベンチマークで徹底的に評価する。 Hunyuan-Largeの主な実践は、以前の文献より大きい大規模合成データである。
論文 参考訳(メタデータ) (Tue, 05 Nov 2024 04:14:25 GMT) - 高性能かつモデルが公開されているタイプのLLM。389Bパラメータうち52BがアクティブなるMoEでLlama 3.1 70Bを超え、405Bと競合的と主張。比較的寛容なライセンスであるが「THIS LICENSE AGREEMENT DOES NOT APPLY IN THE EUROPEAN UNION AND IS EXPRESSLY LIMITED TO THE TERRITORY, AS DEFINED BELOW.」というのが特徴的。「This Agreement and any dispute arising out of or relating to it will be governed by the laws of the Hong Kong Special Administrative Region of the People’s Republic of China」との記載も。
- リポジトリはGitHub – Tencent/Tencent-Hunyuan-Large、モデルはtencent/Tencent-Hunyuan-Large · Hugging Face
Number Cookbook: Number Understanding of Language Models and How to Improve It
- Number Cookbook: Number Understanding of Language Models and How to Improve It [64.0]
大規模言語モデル(LLM)は、基本的な数値的な理解と処理において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。 本稿では,LLMの数値理解と処理能力(NUPA)について包括的に検討する。
論文 参考訳(メタデータ) (Wed, 06 Nov 2024 08:59:44 GMT) - LLMにおける numerical understanding and processing ability (NUPA)の分析と、その改善方法の検討。現状だとコード生成を介すなどツールを使うアプローチが有力だが、「1) we want to study the self-contained NUPA of LLMs, 2) calling external tools whenever encountering numbers increases the inference latency (Xu et al , 2024), and 3) we believe NUPA without tools is a necessary ability of AGI.」という点から本件ではツール利用が検討対象外となっている。
- 現時点では「We investigate NUPA of LLMs and introduce a comprehensive benchmark, the NUPA test, to reveal that numerical problems remain challenging for modern LLMs.」とのこと。やはり難しい問題。実用上はコード生成を介すなどして対応できなくはないが・・・。
- リポジトリはGitHub – GraphPKU/number_cookbook
Vulnerability of LLMs to Vertically Aligned Text Manipulations
- Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.7]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。 エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。 デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (Sat, 26 Oct 2024 00:16:08 GMT) - いわゆる縦書きが分類タスクに与える影響とその緩和策を検討した論文。英語がターゲットになっているが、横書き・縦書き混在が割と普通にある日本語での検証を行うと面白そうに思う。
- 「the model’s enhanced performance with few-shot learning, particularly when compared to the CoT output」とFew shotが比較的有効とのこと。
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks
- NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks [30.2]
NeuZipはニューラルネットワークにおける浮動小数点数のエントロピーに基づく新しい重み圧縮方式である。 Llama-3 8Bモデルのメモリフットプリントを31GBから16GB以下に大幅に削減した。 推定では, ほぼロスレス性能を維持しながら, メモリ使用量を半減することができる。
論文 参考訳(メタデータ) (Mon, 28 Oct 2024 01:12:20 GMT) - ニューラルネットワークの圧縮(メモリ削減)手法の提案。量子化などと異なりロスレスで実用的と思われる手法であるのが興味深い。不可逆な手法でも「The lossy NeuZip provides additional memory saving for inference, achieving superior memory–performance trade-off.」とのこと。
- リポジトリはGitHub – BorealisAI/neuzip: Official repository for the paper “NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks”. This repository contains the code for the experiments in the paper.
Two are better than one: Context window extension with multi-grained self-injection
- Two are better than one: Context window extension with multi-grained self-injection [111.1]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。 本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (Fri, 25 Oct 2024 06:08:59 GMT) - 2つのLLMを組み合わせ1つ目をコンテキスト圧縮、2つ目をデコーダーとしてつかうSharedLLMの提案。普通のencoder-decoder modelではなく、階層的な構造を持っているのが特徴。
- リポジトリはGitHub – Clement25/SharedLLM: Official Implementation of the paper: “Two are better than one: Context window extension with multi-grained self-injection”
Improving Causal Reasoning in Large Language Models: A Survey、LLM-based Optimization of Compound AI Systems: A Survey
因果推論や最適化の分野でもLLMが活用されつつある。
- Improving Causal Reasoning in Large Language Models: A Survey [16.6]
因果推論は知性の重要な側面であり、問題解決、意思決定、世界理解に不可欠である。 大規模言語モデル(LLM)は出力に対して有理性を生成することができるが、因果推論を確実に行う能力は未だ不明である。
論文 参考訳(メタデータ) (Tue, 22 Oct 2024 04:18:19 GMT) - リポジトリはGitHub – chendl02/Awesome-LLM-Causal-Reasoning: Awesome LLM Causal Reasoning is a collection of LLM-based casual reasoning works, including papers, codes and datasets.
- LLM-based Optimization of Compound AI Systems: A Survey [64.4]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。 近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。 本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文 参考訳(メタデータ) (Mon, 21 Oct 2024 18:06:25 GMT)
AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions
- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [47.7]
AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。 データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。 AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
論文 参考訳(メタデータ) (Sun, 27 Oct 2024 12:44:25 GMT) - Kaggleのようなデータ分析の自動化。対象としているタスク(分析フェーズ)は「background understanding, preliminary exploratory data analysis, data cleaning (DC), in-depth exploratory data analysis, feature engineering (FE), and model building, validation, and prediction (MBVP).」で通常のAutoMLより広い、対象データはテーブルデータのよう。
- 「As our analysis relies on GPT-4o, which is trained on data available until October 2023, it includes most of the Classic Kaggle competitions.To evaluate the generalization capabilities of AutoKaggle, we therefore focus on competitions initiated after 2024.」とLeakには気を使っているとはいえ、「Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.」という言いきりは凄い。もっとも、今のLLMの性能からして適切なパイプラインを組めば解けそうな問題であるという感覚はある。
- リポジトリはGitHub – multimodal-art-projection/AutoKaggle