Taipan: Efficient and Expressive State Space Language Models with Selective Attention 

  • Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.2]
    自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。 我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。 我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 09:25:37 GMT)
  • Mamba-2 + Selective Attention Layersなアーキテクチャの提案。MambaやJambaを超える性能を主張。ハイブリッドアプローチが有望?

HalluEditBench、Should We Really Edit Language Models? On the Evaluation of Edited Language Models 

  • Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.6]
    既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。 インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。 その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 14:36:48 GMT)
  • 知識編集に関する分析、「The experimental results indicate that existing editing methods can preserve the general capabilities of the model within a limited number of edits, not exceeding a few dozen.」、「Our experiments demonstrate that after only a few dozen edits, the safety of the model is compromised, including those models that have been aligned.」という指摘。また、「Language model with large scale is more resistant to editing compared to small model.」というのも、Knowledge Editingの研究成果が実問題に適用困難である可能性を示唆していると思う。

  • Can Knowledge Editing Really Correct Hallucinations? [16.3]
    大規模言語モデル(LLM)は、タスクにまたがる優れた能力にもかかわらず、生成されたコンテンツの非現実的な情報を参照しながら幻覚に悩まされる。 知識編集は,LLMで符号化された誤った事実知識を,スクラッチからリトレーニングを避けるという利点によって補正する,新しい一般的なパラダイムとして開発された。 実世界の幻覚を正すための知識編集手法を全体ベンチマークするために,HaluEditBenchを提案する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 17:55:54 GMT)
  • Knowledge Editingに関するベンチマークの提案、「The effectiveness of knowledge editing methods in correcting real-world hallucinations could be far from what their performance on existing datasets suggests, reflecting the potential unreliability of current assessment of different knowledge editing techniques.」と気になる指摘がある。
  • リポジトリはEditing LLMs

In-context learning and Occam’s razor 

  • In-context learning and Occam’s razor [12.6]
    我々はオッカムのカミソリと文脈内学習の関連を描いている。 特に,テキスト内学習者の訓練に使用される次点の予測損失は,事前符号化と呼ばれるデータ圧縮手法と直接的に等価であることを示す。 我々の理論と実証実験は、文脈内学習の規範的な説明を提供するだけでなく、現在の文脈内学習手法の欠点を解明する。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 23:37:34 GMT)
  • ICLの解析、MambaのようなSSMも扱われている。
  • リポジトリはGitHub – 3rdCore/PrequentialCode

Open World Object Detection: A Survey

  • Open World Object Detection: A Survey [16.8]
    オープンワールドオブジェクト検出(OWOD)は、この原則を適用して新しい知識を探求する、新たな研究分野である。 本稿では、OWODドメインの徹底的なレビューを行い、問題定義、ベンチマークデータセット、ソースコード、評価指標、既存手法の比較研究など、基本的な側面について述べる。 本稿では,現在のOWODアルゴリズムが直面する限界と課題に対処し,今後の研究の方向性を提案する。
    論文  参考訳(メタデータ)   (Tue, 15 Oct 2024 05:46:00 GMT)
  • OWOD: Open World Object Detectionのサーベイ
  • リポジトリはGitHub – ArminLee/OWOD_Review

DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding 

  • DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.9]
    大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。 1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 19:59:04 GMT)
  • MLLMを用いて文書をE2Eで編集する手法の提案。HTMLを修正する編集用コマンドを介するアプローチ。「(a) multimodal grounding and edit command generation via the Doc2Command, (b) Command Reformulation prompting to transform the edit command into LMM-specific prompt instruction, (c) prompting LMMs like GPT-4V and Gemini to facilitate nuanced and localized editing of the document’s HTML representation.」というフロー。(E2E・・・?)

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines 

Claude 3.5 Sonnet, Haiku, Computer use, Aya Expanse

先週の話題で大きかったのはAnthropicによる Claude 3.5 Sonnetの強化とPC(GUI)を操作するエージェントの発表だった。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic

前者はOpusを名乗らなかったのが注目で、さらなる高精度なモデルが用意されているとすると期待が大きい。後者はAgent S: An Open Agentic Framework that Uses Computers Like a Human  – arXiv最新論文の紹介などのようにGUIを使うアプローチが良いのか、OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused) – arXiv最新論文の紹介のAPI(コード)を介するアプローチが良いのかは議論が分かれるところだが、この手の進化には要注目である。

Cohereから出ている多言語モデルAyaにも要注目。Aya Expanse: Connecting Our World

GemmaやLlama、Mistral以上を主張するモデルでCC-BY NCで公開されている。CohereForAI/aya-expanse-8b · Hugging FaceCohereForAI/aya-expanse-32b · Hugging Face

Scaling Diffusion Language Models via Adaptation from Autoregressive Models 

  • Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
    拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。 実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 14:04:22 GMT)
  • 「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
  • リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models

A Survey on Data Synthesis and Augmentation for Large Language Models

  • A Survey on Data Synthesis and Augmentation for Large Language Models [35.6]
    本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。 これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 16:12:39 GMT)
  • 重要性が増すLLMに関するデータ合成のサーベイ

Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging

  • Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging [102.2]
    汎用言語モデルを新しいスキルに適用することは、現在、高価なプロセスである。 既存のモデルに新たなスキルを付加する効果について,新たなスキルを単独で訓練し,その後一般モデルとマージすることによって検討した。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 18:23:50 GMT)
  • 「As training datasets targeting new skills are constructed, it is an open question how best to patch preexisting models to incorporate the new skills represented by those datasets.」という状況での「continued finetuning (CFT) 」、「retraining (RT)」、「parallel train then merge (PTM)」の比較
  • 「We find that PTM is an efficient and effective method of augmenting preexisting models, enabling the addition of new skills with a fraction of the compute required compared to other common methods.」と結論