- TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.1]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。 LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。 TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (Wed, 18 Sep 2024 06:19:59 GMT) - 表形式を扱うためのフレームワーク、「TART consists of a table formatter for accurate data representation, a tool maker for creating specialized tools, and an explanation generator maintaining interpretable explanations.」とのこと。ベンチマークも考案しており、効果を確認。
- リポジトリはGitHub – XinyuanLu00/TART: This is the repository for TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning
カテゴリー: arXiv
SoccerNet 2024 Challenges Results
- SoccerNet 2024 Challenges Results [152.9]
SoccerNet 2024の課題は、サッカーネットチームが主催する4年目のビデオ理解の課題を表している。 この課題は、サッカーにおける複数のテーマにまたがる研究を進めることを目的としており、放送ビデオ理解、フィールド理解、プレイヤー理解などが含まれる。 今年は、4つのビジョンベースのタスクが課題となっている。
論文 参考訳(メタデータ) (Mon, 16 Sep 2024 14:12:22 GMT) - SoccerNet (soccer-net.org) 2024の結果
- ソリューション概要、一部はリポジトリへのリンクがある。
Agents in Software Engineering: Survey, Landscape, and Vision
- Agents in Software Engineering: Survey, Landscape, and Vision [46.0]
大規模言語モデル(LLM)は目覚ましい成功を収め、下流の様々なタスクで広く使われてきた。 LLMとソフトウェア工学(SE)を組み合わせた多くの研究では、明示的にも暗黙的にもエージェントの概念が採用されている。 本稿では,知覚,記憶,行動の3つの重要なモジュールを含む,SE における LLM ベースのエージェントのフレームワークを提案する。
論文 参考訳(メタデータ) (Fri, 13 Sep 2024 17:55:58 GMT) - Large Language Model-Based Agents for Software Engineering: A Survey – arXiv最新論文の紹介 (devneko.jp)とは別のチームによるソフトウェアエンジニアリングにおけるエージェント活用のサーベイ。エージェント側の技術に注目したものになっている。
- リポジトリはGitHub – DeepSoftwareAnalytics/Awesome-Agent4SE
A Controlled Study on Long Context Extension and Generalization in LLMs
- A Controlled Study on Long Context Extension and Generalization in LLMs [85.5]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。 長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。 我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (Wed, 18 Sep 2024 17:53:17 GMT) - 長文の取り扱いに関する手法の評価、「Our study underscores the role of perplexity as a crucial, performance indicator at length and highlights the trade-offs inherent in different attention mechanisms.」
- リポジトリはGitHub – Leooyii/LCEG: Long Context Extension and Generalization in LLMs
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
- A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B [11.8]
本稿では、7Bから405Bのモデルにおける命令調整型LLMの性能を評価する。 我々は6つのタスクタイプ(常識Q&A、知識と言語理解、指示追従、幻覚検出、数学、対話)のパフォーマンスを評価する。
論文 参考訳(メタデータ) (Tue, 17 Sep 2024 10:31:37 GMT) - 量子化の影響を分析した論文、「We found that quantized LLMs generally outperformed smaller models in most tasks, except for hallucination detection and instruction-following.」と結論。後半はちょっと驚き。
Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
- Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey [22.5]
優先度調整は、深層生成モデルと人間の嗜好を整合させる重要なプロセスである。 この調査は、最近の嗜好調整の進歩と人間のフィードバックの統合を概観するものである。
論文 参考訳(メタデータ) (Tue, 17 Sep 2024 21:28:51 GMT) - Preference Tuning のサーベイ
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration
- CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.4]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。 視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。 本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (Tue, 17 Sep 2024 17:14:41 GMT) - MLLMにおいて悪意のある画像を介した攻撃が問題になるが、その対応に関する論文。
- 「We first make the observation that despite the integration of visual modality makes the MLLMs more vulnerable, the inherent safetyawareness of MLLMs still exists.」はへーという感じ、
What is the Role of Small Models in the LLM Era: A Survey
- What is the Role of Small Models in the LLM Era: A Survey [13.2]
大規模言語モデル(LLM)は人工知能(AGI)の進歩に大きな進歩をもたらし、GPT-4やLLaMA-405Bのような大規模モデルの開発に繋がった。 モデルのサイズを拡大すると、計算コストとエネルギー消費が指数関数的に増加し、これらのモデルは限られたリソースを持つ学術研究者やビジネスにとって実用的ではない。 同時に、Small Models (SM) は実際的な設定で頻繁に使用されるが、その重要性は過小評価されている。
論文 参考訳(メタデータ) (Tue, 10 Sep 2024 20:45:43 GMT) - 実用上重要なスモールモデルに関するサーベイ。「 there is no clear definition distinguishing large models from small ones.」はですよねーという感じ。とはいえ整理軸含めて、納得感のある内容。
- リポジトリはGitHub – tigerchen52/role_of_small_models
Autoregressive + Chain of Thought (CoT) ≃ Recurrent、To CoT or not to CoT
Chain of Thoughtの検証を行った論文が出ていた。1つ目は動作面からの検証で2つ目はメタ分析によるもの。
- Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrence’s Role in Language Models and a Revist of Recurrent Transformer [30.0]
言語モデルにおける繰り返し構造が推論能力に与える影響について検討する。 線形変換器やRWKVのようなモデルにおける重要な理論的限界を同定する。
論文 参考訳(メタデータ) (Sat, 14 Sep 2024 00:30:57 GMT) - 「We explained that CoT approximates recurrence in Transformer-based autoregressive LLMs from a computational standpoint.」とのこと。途中の「Recurrent Neural Networks (RNNs) sacrifice parallel training for recurrent connections, while Transformers trade recurrence for parallelism.」も重要。
- To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.5]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。 私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (Wed, 18 Sep 2024 17:55:00 GMT) - 「Finding 1: CoT only helps substantially on problems requiring mathematical, logical, or algorithmic reasoning.」はよいとして、「Finding 2: CoT primarily helps with the execution step that performs computation and symbolic manipulation, but falls short of what LLMs with tool augmentation can do.」はAgenticなアプローチのほうが有望ということなんだろうか。
P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task
- P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.1]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。 自然言語命令は明示的なタスクプランニングを欠くことが多い。 タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (Tue, 17 Sep 2024 15:29:34 GMT) - 自然言語の指示と環境情報が与えられた時のエージェント動作(計画など)にRAGを使うアプローチの提案。RAGのデータベースを動的に更新していくものでLLM based Agentsそのものの印象。
- 感覚的にRetrieveに難しさがありそうだが、「When an agent interacts with the environment during a task, it first receives the environment’s goal instruction 𝐼𝑔 and observation 𝑂𝑡. Then it encodes with MiniLM [31] both of them」とあるがこの方針でうまくいくのかという驚き。