LLM Agent Operating System

  • AIOS: LLM Agent Operating System [40.9]
    AIOSは、大規模言語モデル(LLM)ベースのインテリジェントエージェントのためのオペレーティングシステムである。 具体的には、AIOSはリソース割り当てを最適化し、エージェント間のコンテキストスイッチを容易にし、エージェントの同時実行を可能にし、エージェントのためのツールサービスを提供し、エージェントのアクセス制御を維持するように設計されている。 我々は、そのようなオペレーティングシステムのアーキテクチャを説明し、AIOSの基本設計と実装を提供する。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 02:35:07 GMT)
  • LLM AgentのためのOS、LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem – arXiv最新論文の紹介 (devneko.jp)と同じチームによる論文。面白いアプローチではあるが、今後ありうる進化に追随していけるのか(抽象化が十分なのか)は気になるところ。
  • リポジトリはagiresearch/AIOS: AIOS: LLM Agent Operating System (github.com)

Threats, Attacks, and Defenses in Machine Unlearning: A Survey

  • Threats, Attacks, and Defenses in Machine Unlearning: A Survey [15.1]
    マシン・アンラーニング(MU)はAIの安全性を向上させる可能性に対して大きな注目を集めている。 この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めようとしている。
    論文  参考訳(メタデータ)   (Wed, 20 Mar 2024 15:40:18 GMT)
  • Machine unlearning領域の攻撃や防御のサーベイ

Jamba: A Hybrid Transformer-Mamba Language Model

  • Jamba: A Hybrid Transformer-Mamba Language Model [36.5]
    本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 23:55:06 GMT)
  • DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)で紹介したJambaの論文。モデルアーキテクチャの詳細などが紹介されている。「Combining Transformer, Mamba, and MoE elements allows flexibility in balancing among the sometimes conflicting objectives of low memory usage, high throughput, and high quality.」とあり、全52BパラメータだがActiveなものは12B、KVキャッシュは4GB(256Kコンテキスト)ととても軽量。Mistralだとパラメータ7.2B、Activeなものも7.2BでKVキャッシュは32GB、Mixstralだと同46.7B, 12.9B, 32GB。(コンテキスト長すぎじゃないかと思わなくはないが) 性能はMixstralと良い勝負であり非常に効率的。
  • リポジトリはai21labs/Jamba-v0.1 · Hugging Face

OmniParser

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation 

  • Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [31.5]
    従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。 この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 07:58:13 GMT)
  • World modelになるかもというsoraの主張に対してのサーベイ。「it is understandable that OpenAI claims Sora as an AI model that understands and thus, can simulate the physical world.」としながらも様々な課題も指摘している。「Nonetheless, why scaling up is not a cure-all and how to liberate Sora from contemporary issues in vision generation tasks is still left as a blue ocean in vision generation research community」

DBRX, Jamba, Grok-1.5, RWKV Finch

先週もLLM界隈の話題が多かった。注目はDatabricks(&元MosaicML)によるDBRXで公開モデルとしては非常に高性能(ライセンスは独自)。「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして | Databricks Blog

JambaはMamba MoE + transformerでSSMハイブリッドとして商用レベルをうたうモデル。ベースモデルはApache-2ライセンス。Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model

transformer以外の選択肢だとRWKV-6 Finch(RWKV-x060-World-1B6-v2.1-20240328-ctx4096)がhugging faceで試用可能となっている。長文翻訳はまだまだという感じだがfine tuning等やってみたいところ
RWKV-Gradio-1 – a Hugging Face Space by BlinkDL

Grok-1.5(および2)のアナウンスもありこちらも要注目。
Announcing Grok-1.5 (x.ai)
XユーザーのElon Muskさん: 「Should be available on 𝕏 next week. Grok 2 should exceed current AI on all metrics. In training now.」 / X (twitter.com)

GPT-4やGemini、ClaudeなどAPIベースの選択肢以外が広がることを期待したい。

SAFE: Search-Augmented Factuality Evaluator

  • Long-form factuality in large language models [59.3]
    大規模言語モデ ル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。 まず最初にGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成します。 そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
    論文  参考訳(メタデータ)   (Wed, 27 Mar 2024 17:48:55 GMT)
  • 事実性の間違いを重視したベンチマーク、「SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results.」「Empirically, we demonstrated that SAFE achieves superhuman performance by agreeing with 72% of human annotations and winning 76% of examples out of a set of 100 randomly-sampled disagreement cases.」とのこと。ベンチマークとしての評価結果はGPT-4-turbo > Gemini Ultra > Calude-3 OPUSでClaude 3 OPUSはハルシネーションが多いのでは?という印象を裏付けていそうに思う。SAFEは評価用だけでなく二次チェックにも有用そう。
  • リポジトリはgoogle-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper “Long-form factuality in large language models.” (github.com)

InternLM2

  • InternLM2 Technical Report [159.7]
    本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 00:53:24 GMT)
  • InternLM2のテクニカルレポート。詳細な情報が載っておりとても興味深い。Chatの性能は高い。学術研究用であれば自由に利用できるものではあるがウェイトは独自ライセンス。
  • リポジトリはInternLM/InternLM: Official release of InternLM2 7B and 20B base and chat models. 200K context support (github.com)