arXiv最新論文の紹介

Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models

（主としてRAGを想定した）高速化、Transformerに代わるかもしれないMamba（Mamba – arXiv最新論文の紹介 (devneko.jp)）の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。

Codestral Mamba | Mistral AI | Frontier AI in your hands（mistralai/Mamba-Codestral-7B-v0.1 · Hugging Face）など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 04:06:14 GMT)
「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で（RAGにありがちな）長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
リポジトリはNexaAIDev/Dolphin · Hugging Face

ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 02:47:27 GMT)
Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負

The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (Tue, 27 Aug 2024 17:56:11 GMT)
LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
普通に小型化するのと比べて優位性があるのだろうか。

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
論文参考訳（メタデータ） (Fri, 23 Aug 2024 07:31:01 GMT)
マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
リポジトリはGitHub – DeepReasoning/aihealth

LogicGame

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 13:16:41 GMT)
ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

Large Language Model Driven Recommendation

Large Language Model Driven Recommendation [34.5]
言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 15:36:24 GMT)
LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。

SurveySum

SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
論文参考訳（メタデータ） (Thu, 29 Aug 2024 11:13:23 GMT)
学術論文の要約データセット
リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face

要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。

Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
論文参考訳（メタデータ） (Sat, 01 Jun 2024 17:28:38 GMT)

Re-Thinking Process Mining in the AI-Based Agents Era

Re-Thinking Process Mining in the AI-Based Agents Era [39.6]
大規模言語モデル(LLM)は強力な対話インタフェースとして登場し、プロセスマイニング(PM)タスクにおけるその応用は有望な結果を示している。本稿では,LLMにおけるPMの有効性を高めるために,AIベースのエージェント(AgWf)パラダイムを活用することを提案する。我々はAgWfの様々な実装とAIベースのタスクの種類について検討する。
論文参考訳（メタデータ） (Wed, 14 Aug 2024 10:14:18 GMT)
LLM時代のプロセスマイニング、GitHub – crewAIInc/crewAI: Framework for orchestrating role-playing, autonomous AI agents. By fostering collaborative intelligence, CrewAI empowers agents to work together seamlessly, tackling complex tasks.ベースのトライアルがGitHub – fit-alessandro-berti/agents-trial: agents-trialにある。

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7]
本手法はモンテカルロ木探索とLLMに基づく反射による自己再生シミュレーションにより品質フィードバックを収集する。本手法は,従来の強化学習手法よりも優れた性能でエージェントを訓練する上で有効であることを示す。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 08:22:04 GMT)
「 (1) reflection and idea generation step and (2) the strategy improvement step」を繰り返しながら自己改善していく手法の提案。有効そう。
リポジトリはStrategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search (llm-strategist.github.io)

TableBench

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文参考訳（メタデータ） (Sat, 17 Aug 2024 11:40:10 GMT)
TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
リポジトリはTableBench Homepage

Computer Vision Model Compression Techniques for Embedded Systems: A Survey

Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 16:41:55 GMT)
CVを対象としたモデル圧縮技術のサーベイ
リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象

Performance Law of Large Language Models

Performance Law of Large Language Models [58.3]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (Mon, 19 Aug 2024 11:09:12 GMT)
計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
面白いけどほんまかいな

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
論文参考訳（メタデータ） (Wed, 31 Jul 2024 17:57:25 GMT)
計算能力という面では、推論側でのScalingという話も
（この辺は良質な合成データとの関係性も気になる）

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31