2024年8月 – arXiv最新論文の紹介

Re-Thinking Process Mining in the AI-Based Agents Era

Re-Thinking Process Mining in the AI-Based Agents Era [39.6]
大規模言語モデル(LLM)は強力な対話インタフェースとして登場し、プロセスマイニング(PM)タスクにおけるその応用は有望な結果を示している。本稿では,LLMにおけるPMの有効性を高めるために,AIベースのエージェント(AgWf)パラダイムを活用することを提案する。我々はAgWfの様々な実装とAIベースのタスクの種類について検討する。
論文参考訳（メタデータ） (Wed, 14 Aug 2024 10:14:18 GMT)
LLM時代のプロセスマイニング、GitHub – crewAIInc/crewAI: Framework for orchestrating role-playing, autonomous AI agents. By fostering collaborative intelligence, CrewAI empowers agents to work together seamlessly, tackling complex tasks.ベースのトライアルがGitHub – fit-alessandro-berti/agents-trial: agents-trialにある。

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7]
本手法はモンテカルロ木探索とLLMに基づく反射による自己再生シミュレーションにより品質フィードバックを収集する。本手法は,従来の強化学習手法よりも優れた性能でエージェントを訓練する上で有効であることを示す。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 08:22:04 GMT)
「 (1) reflection and idea generation step and (2) the strategy improvement step」を繰り返しながら自己改善していく手法の提案。有効そう。
リポジトリはStrategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search (llm-strategist.github.io)

TableBench

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文参考訳（メタデータ） (Sat, 17 Aug 2024 11:40:10 GMT)
TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
リポジトリはTableBench Homepage

Computer Vision Model Compression Techniques for Embedded Systems: A Survey

Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 16:41:55 GMT)
CVを対象としたモデル圧縮技術のサーベイ
リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象

Performance Law of Large Language Models

Performance Law of Large Language Models [58.3]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (Mon, 19 Aug 2024 11:09:12 GMT)
計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
面白いけどほんまかいな

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
論文参考訳（メタデータ） (Wed, 31 Jul 2024 17:57:25 GMT)
計算能力という面では、推論側でのScalingという話も
（この辺は良質な合成データとの関係性も気になる）

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.4]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文参考訳（メタデータ） (Tue, 13 Aug 2024 08:10:32 GMT)
mPLUG-Owlのver 3
リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl: The Powerful Multi-modal Large Language Model Family

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 00:24:53 GMT)
JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。

Visual Agents as Fast and Slow Thinkers

Visual Agents as Fast and Slow Thinkers [88.7]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 17:44:02 GMT)
かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。

A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning

A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.9]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文参考訳（メタデータ） (Tue, 13 Aug 2024 17:49:00 GMT)
いわゆるMoE：Mixture-of-Expertsよりも広い概念であるMoErging（a new paradigm for decentralized model development that aims to recycle expert models trained asynchronously by distributed contributors.）のサーベイ

Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction

Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction [35.5]
Kolmogorov-Arnold Represented Sparse Interaction Network (KarSein)を紹介する。 KarSeinは予測精度と計算効率の両方を最適化するように設計されている。計算オーバーヘッドを最小限に抑えて、かなりの予測精度を達成する。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 12:51:52 GMT)
KANを拡張し、CTR予測に適用
リポジトリはGitHub – Ancientshi/KarSein: KarSein for CTR predict

2024年8月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31