MATEval: A “Multi-Agent Text Evaluation framework”

  • MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.2]
    生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: “Multi-Agent Text Evaluation framework”を提案する。 本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 10:41:47 GMT)
  • マルチエージェントなself-reflectionとCoTで評価するフレームワークの提案。「We mainly apply our framework to the evaluation of story texts generated by LLMs in Alipay business scenarios.」 とのことで現実的なデータ&様々な手法と比較されているのは興味深い。
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

Evaluation Ethics of LLMs in Legal Domain

  • Evaluation Ethics of LLMs in Legal Domain [35.7]
    本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を利用する新規性評価手法を提案する。 包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。
    論文  参考訳(メタデータ)   (Sun, 17 Mar 2024 09:05:13 GMT)
  • LLMに対する法的ドメインでの評価、社会実装を考えるうえでとても重要。「Legal Instruction Following(正しく命令に従うか)」「Legal Knowledge( Gender Bias, Age Bias, Career Biasを持っていないか)」「 Legal Robustness(回答の一貫性と誘導されないか)」を検証。Legal Knowledgeの「 Qwen-Chat (14B/7B) demonstrates a strong ability in recognizing legal elements, while GPT4 could become more viable if it addresses sentencing biases stemming from gender.」はやや意外な結果。
  • 残念ながら「Highlight the widespread shortcomings of LLMs in fairness and robustness.」とのこと。。。

LLM Agent Operating System

  • AIOS: LLM Agent Operating System [40.9]
    AIOSは、大規模言語モデル(LLM)ベースのインテリジェントエージェントのためのオペレーティングシステムである。 具体的には、AIOSはリソース割り当てを最適化し、エージェント間のコンテキストスイッチを容易にし、エージェントの同時実行を可能にし、エージェントのためのツールサービスを提供し、エージェントのアクセス制御を維持するように設計されている。 我々は、そのようなオペレーティングシステムのアーキテクチャを説明し、AIOSの基本設計と実装を提供する。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 02:35:07 GMT)
  • LLM AgentのためのOS、LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem – arXiv最新論文の紹介 (devneko.jp)と同じチームによる論文。面白いアプローチではあるが、今後ありうる進化に追随していけるのか(抽象化が十分なのか)は気になるところ。
  • リポジトリはagiresearch/AIOS: AIOS: LLM Agent Operating System (github.com)

Jamba: A Hybrid Transformer-Mamba Language Model

  • Jamba: A Hybrid Transformer-Mamba Language Model [36.5]
    本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 23:55:06 GMT)
  • DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)で紹介したJambaの論文。モデルアーキテクチャの詳細などが紹介されている。「Combining Transformer, Mamba, and MoE elements allows flexibility in balancing among the sometimes conflicting objectives of low memory usage, high throughput, and high quality.」とあり、全52BパラメータだがActiveなものは12B、KVキャッシュは4GB(256Kコンテキスト)ととても軽量。Mistralだとパラメータ7.2B、Activeなものも7.2BでKVキャッシュは32GB、Mixstralだと同46.7B, 12.9B, 32GB。(コンテキスト長すぎじゃないかと思わなくはないが) 性能はMixstralと良い勝負であり非常に効率的。
  • リポジトリはai21labs/Jamba-v0.1 · Hugging Face

DBRX, Jamba, Grok-1.5, RWKV Finch

先週もLLM界隈の話題が多かった。注目はDatabricks(&元MosaicML)によるDBRXで公開モデルとしては非常に高性能(ライセンスは独自)。「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして | Databricks Blog

JambaはMamba MoE + transformerでSSMハイブリッドとして商用レベルをうたうモデル。ベースモデルはApache-2ライセンス。Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model

transformer以外の選択肢だとRWKV-6 Finch(RWKV-x060-World-1B6-v2.1-20240328-ctx4096)がhugging faceで試用可能となっている。長文翻訳はまだまだという感じだがfine tuning等やってみたいところ
RWKV-Gradio-1 – a Hugging Face Space by BlinkDL

Grok-1.5(および2)のアナウンスもありこちらも要注目。
Announcing Grok-1.5 (x.ai)
XユーザーのElon Muskさん: 「Should be available on 𝕏 next week. Grok 2 should exceed current AI on all metrics. In training now.」 / X (twitter.com)

GPT-4やGemini、ClaudeなどAPIベースの選択肢以外が広がることを期待したい。

SAFE: Search-Augmented Factuality Evaluator

  • Long-form factuality in large language models [59.3]
    大規模言語モデ ル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。 まず最初にGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成します。 そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
    論文  参考訳(メタデータ)   (Wed, 27 Mar 2024 17:48:55 GMT)
  • 事実性の間違いを重視したベンチマーク、「SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results.」「Empirically, we demonstrated that SAFE achieves superhuman performance by agreeing with 72% of human annotations and winning 76% of examples out of a set of 100 randomly-sampled disagreement cases.」とのこと。ベンチマークとしての評価結果はGPT-4-turbo > Gemini Ultra > Calude-3 OPUSでClaude 3 OPUSはハルシネーションが多いのでは?という印象を裏付けていそうに思う。SAFEは評価用だけでなく二次チェックにも有用そう。
  • リポジトリはgoogle-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper “Long-form factuality in large language models.” (github.com)

InternLM2

  • InternLM2 Technical Report [159.7]
    本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 00:53:24 GMT)
  • InternLM2のテクニカルレポート。詳細な情報が載っておりとても興味深い。Chatの性能は高い。学術研究用であれば自由に利用できるものではあるがウェイトは独自ライセンス。
  • リポジトリはInternLM/InternLM: Official release of InternLM2 7B and 20B base and chat models. 200K context support (github.com)

CoIN: Continual Instruction tuNing

  • CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
    逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。 従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
    論文  参考訳(メタデータ)   (Wed, 13 Mar 2024 08:54:31 GMT)
  • マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
  • リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

WorldGPT

  • WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs [53.2]
    本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。 このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 16:09:02 GMT)
  • Prompt Enhancer + Key Frame Generator + Video Generator での動画生成フレームワーク。「This innovative approach enables the generation of captivating videos that encapsulate rich and realistic world models.」とあるが本当なんだろうか。。。

WikiTableEdit

  • WikiTableEdit: A Benchmark for Table Editing by Natural Language Instruction [56.2]
    本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。 Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。 WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
    論文  参考訳(メタデータ)   (Tue, 5 Mar 2024 13:33:12 GMT)
  • 表を編集するタスク(We select six commonly-employed fundamental operations for our dataset: (1) Adding a new row or column, (2) Removing a row or column, (3) Swapping two rows, (4) Reordering based on a certain column, (5) Merging adjacent cells with identical values, and (6) Splitting the merged cells.)の提案とデータセットの作成。GPT3.5-turboで厳しい感じであり、スコアを見るに簡単に見えて難しいタスクであるよう。(より大規模なモデルでの結果も知りたいところではある)
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)