2024年9月2日 – arXiv最新論文の紹介

Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models

（主としてRAGを想定した）高速化、Transformerに代わるかもしれないMamba（Mamba – arXiv最新論文の紹介 (devneko.jp)）の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。

Codestral Mamba | Mistral AI | Frontier AI in your hands（mistralai/Mamba-Codestral-7B-v0.1 · Hugging Face）など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 04:06:14 GMT)
「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で（RAGにありがちな）長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
リポジトリはNexaAIDev/Dolphin · Hugging Face

ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 02:47:27 GMT)
Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負

The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (Tue, 27 Aug 2024 17:56:11 GMT)
LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
普通に小型化するのと比べて優位性があるのだろうか。

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
論文参考訳（メタデータ） (Fri, 23 Aug 2024 07:31:01 GMT)
マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
リポジトリはGitHub – DeepReasoning/aihealth

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 13:16:41 GMT)
ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

Large Language Model Driven Recommendation [34.5]
言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 15:36:24 GMT)
LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。

SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
論文参考訳（メタデータ） (Thu, 29 Aug 2024 11:13:23 GMT)
学術論文の要約データセット
リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face

要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。

Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
論文参考訳（メタデータ） (Sat, 01 Jun 2024 17:28:38 GMT)