Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions

  • Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions [77.8]
    LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。 最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 17:19:19 GMT)
  • LLMの評価手法の提案、「By using LLM agents to generate questions, employing LLM candidates in peer battles, and evaluating responses using LLM committee discussions, Auto-Arena produces less-contaminated, robust, and trustworthy evaluation results.」というエージェント的手法。自動評価ができるということは自動改善もできそうな気がするが、合議制で良いデータを作りfine tuningをしていくとどのくらいまで性能が上がるんだろうか。
  • プロジェクトサイト・リーダーボードはEmbedded Streamlit App (auto-arena.github.io)、英語と中国語でランキングがかなり異なるのが面白い。

AI Risk Management Should Incorporate Both Safety and Security

  • AI Risk Management Should Incorporate Both Safety and Security [185.7]
    AIリスクマネジメントの利害関係者は、安全とセキュリティの間のニュアンス、シナジー、相互作用を意識すべきである、と私たちは主張する。 我々は、AIの安全性とAIのセキュリティの違いと相互作用を明らかにするために、統一された参照フレームワークを導入する。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 21:00:47 GMT)
  • AIのリスクマネジメントにおける「Safety」と「Security」の違いにフォーカスしながら事例や考慮すべきことを整理した論文。
  • 「Unfortunately, this vision is often obfuscated, as the definitions of the basic concepts of “safety” and “security” themselves are often inconsistent and lack consensus across communities.」はその通りだと思う。

Large Language Models Meet NLP: A Survey

  • Large Language Models Meet NLP: A Survey [79.7]
    大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて印象的な機能を示している。 本研究は,以下の課題を探求することによって,このギャップに対処することを目的とする。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 14:24:01 GMT)
  • 典型的なNLPタスクについてLLMを用いるアプローチを整理したサーベイ。結果がまとめられていないのがやや残念ではあるが、論文がリポジトリ(GitHub – LightChen233/Awesome-LLM-for-NLP)にまとまっているのが非常にありがたい。

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

  • MoEで小型強力なYuan 2.0-M32
  • SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
  • 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
  • Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
    Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 09:05:08 GMT)
  • MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
  • リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
  • Zamba: A Compact 7B SSM Hybrid Model [11.0]
    Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
    論文  参考訳(メタデータ)   (Sun, 26 May 2024 22:23:02 GMT)
  • SSMとTransformerのハイブリッドで効率的だが強力なLLM
  • リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
  • MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
    私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:57:16 GMT)
  • 強力かつオープンなLLM
  • プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents 

  • Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents [22.9]
    ファウンデーションモデルに対応した生成人工知能はエージェントの開発と実装を容易にする。 本稿では、コンテキスト、力、トレードオフを分析した16のアーキテクチャパターンからなるパターンカタログを提案する。
    論文  参考訳(メタデータ)   (Thu, 16 May 2024 23:24:48 GMT)
  • 生成AIを用いたエージェント構築のためのデザインパターンの紹介
  • 急速に発展している感がある