Scaling Diffusion Language Models via Adaptation from Autoregressive Models 

  • Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
    拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。 実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 14:04:22 GMT)
  • 「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
  • リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models

A Survey on Data Synthesis and Augmentation for Large Language Models

  • A Survey on Data Synthesis and Augmentation for Large Language Models [35.6]
    本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。 これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 16:12:39 GMT)
  • 重要性が増すLLMに関するデータ合成のサーベイ

Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging

  • Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging [102.2]
    汎用言語モデルを新しいスキルに適用することは、現在、高価なプロセスである。 既存のモデルに新たなスキルを付加する効果について,新たなスキルを単独で訓練し,その後一般モデルとマージすることによって検討した。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 18:23:50 GMT)
  • 「As training datasets targeting new skills are constructed, it is an open question how best to patch preexisting models to incorporate the new skills represented by those datasets.」という状況での「continued finetuning (CFT) 」、「retraining (RT)」、「parallel train then merge (PTM)」の比較
  • 「We find that PTM is an efficient and effective method of augmenting preexisting models, enabling the addition of new skills with a fraction of the compute required compared to other common methods.」と結論

On Efficient Variants of Segment Anything Model: A Survey 

  • On Efficient Variants of Segment Anything Model: A Survey [63.1]
    Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。 これを解決するために、精度を犠牲にすることなく効率を高めるために様々なSAM変種が提案されている。 この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 11:59:54 GMT)
  • SAMのサーベイ
  • 効率化を主体としたものとはいえこれだけの変種があるのに驚き。。

Fundamental Limitations on Subquadratic Alternatives to Transformers 

  • Fundamental Limitations on Subquadratic Alternatives to Transformers [3.5]
    文書類似性タスクに重点を置いており、入力された多くの文書として与えられ、最もよく似たペアを見つけたいと思っています。 我々はTransformerがこのタスクを実行できることを証明し、このタスクはどんなアルゴリズムでも真に2次時間で実行できないことを証明した。
    論文  参考訳(メタデータ)   (Sat, 05 Oct 2024 19:21:13 GMT)
  • 「We focus on document similarity tasks, where one is given as input many documents and would like to find a pair which is (approximately) the most similar. We prove that Transformer is able to perform this task, and we prove that this task cannot be performed in truly subquadratic time by any algorithm.」という主張。
  • その手のタスクがあるのはそうだろうというのとドキュメント類似性タスクに関する分析はとても興味深い。特に「Theorem 3.1. Assuming SETH or OVC, for every ε > 0, there exists a constant c > 0 such that γ-LSDn,ℓ cannot be solved in O(n^2−ε) time for any γ ≥ 1 when ℓ = c log n.」は面白い結果。(実用上は、というと話が変わる場合も多い印象ではありつつ)この手の理論解析は重要。

How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs 

  • How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs [69.6]
    本稿では,変圧器を用いた大規模言語モデルの数学的タスクにおける有効性に影響を与える重要な要因として,数値的精度を同定する。 その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。 対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 17:59:35 GMT)
  • 「Our results show that Transformers operating with low numerical precision fail to address arithmetic tasks, such as iterated addition and integer multiplication, unless the model size grows super-polynomially with respect to the input length.」という指摘。

Mamba in Vision: A Comprehensive Survey of Techniques and Applications

  • Mamba in Vision: A Comprehensive Survey of Techniques and Applications [3.5]
    Mambaは、コンピュータビジョンにおいて、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)が直面する課題を克服するための、新しいアプローチとして登場した。 MambaはSelective Structured State Space Modelsを活用して、線形計算の複雑さで長距離依存を効果的に捉えることで、これらの制限に対処する。
    論文  参考訳(メタデータ)   (Fri, 04 Oct 2024 02:58:49 GMT)
  • 画像におけるMamba活用のサーベイ
  • リポジトリはGitHub – maklachur/Mamba-in-Computer-Vision: Mamba in Vision: A Comprehensive Survey of Techniques and Applications

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

  • Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.0]
    我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。 まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。 これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。 ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 08:24:09 GMT)
  • 指示なしで動くエージェントの開発、「we investigate a new scenario where the agent autonomously predicts tasks users might assign, aiming to offer assistance proactively」という設定。ProactiveBenchというベンチマークを構築し評価を行っている。fine tuningが非常に有効そうに見えるのはタスクの特殊性が原因だろうか。
  • リポジトリはGitHub – thunlp/ProactiveAgent: A LLM-based Agent that predict its tasks proactively.

Harnessing Webpage UIs for Text-Rich Visual Understanding 

  • Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
    テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 17:48:54 GMT)
  • 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
  • プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding

ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition 

  • ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3]
    ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。 このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。 我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
    論文  参考訳(メタデータ)   (Tue, 08 Oct 2024 07:55:09 GMT)
  • 「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。
  • プロジェクトサイトはActionAtlas (mrsalehi.github.io)