Mixture-of-Agents Enhances Large Language Model Capabilities

  • Mixture-of-Agents Enhances Large Language Model Capabilities [34.7]
    我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。 提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。 MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 07:04:10 GMT)
  • 名前からしても強力そうなMixture-of-Agents、階層型で複数のLLMの結果を踏まえて解を求めていく動作のよう。オープンソースモデル(Qwen1.5 110B-Chat、Qwen1.5 72B-Chat、WizardLM-8x22B、 LLaMA-3-70B-Instruct 、 Mixtral-8x22B-v0.1、dbrx-instruct)の複合でGPT-4oを上回ったのは凄い。
  • リポジトリはGitHub – togethercomputer/MoA

A Survey of Transformer Enabled Time Series Synthesis 

  • A Survey of Transformer Enabled Time Series Synthesis [38.9]
    生成AIは画像と言語領域で多くの注目を集めている。 本稿では,変換器,生成AI,時系列データの交点におけるこのギャップを明らかにする。 レビューされた研究はアプローチの多様さを示しており、ドメインがもたらす問題に対する決定的な回答にはまだ収束していない。
    論文  参考訳(メタデータ)   (Tue, 04 Jun 2024 13:52:42 GMT)
  • Transformerと時系列データに関するサーベイ
  • TNNでtransformer neural network はあまり見ない略し方

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

  • Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.1]
    Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。 これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 14:07:02 GMT)
  • ToTの経路を用いてチューニング(DPO)するChain of Preference Optimizationにより、CoTを超え、ToTに近い性能を達成、計算時間も抑えられるとする論文。シンプルにSFTするTS-SFTより性能が高いのが意外。
  • リポジトリはGitHub – sail-sg/CPO

Memorization in deep learning: A survey 

  • Memorization in deep learning: A survey [26.7]
    近年の研究では、Deep Neural Networks(DNN)が一般的なパターンを学習するのではなく、例から特定の詳細を記憶する傾向にある興味深い現象が明らかになった。 これにより、DNNにおける一般化の性質と、セキュリティ侵害に対する感受性に関する批判的な疑問が提起される。 一般化とセキュリティ/プライバシドメインに基づく記憶定義を整理するための体系的枠組みを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 09:17:40 GMT)
  • DNNにおける記憶(、知識)についてのサーベイ
  • 著作権の観点で一般化しているのか丸暗記しているのか、実用の観点では個別の記憶を持たせられるのか編集出来るのかなど、様々な観点で重要な性質であり、まとまったサーベイはありがたい。

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

  • Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.7]
    近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。 人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 16:03:25 GMT)
  • AI アライメントに関するサーベイで400以上の文献を調査した包括的なもの。Overall Author List and Contributions からの幅広い分野の方が調査に参加している。
  • 個人的には「Challenge 3: Safeguarding Co-adaptation」の「As advanced AI systems become increasingly complex, they present greater challenges for human interpretation and control. To address this, it is crucial to empower humans to detect and interpret AI misconduct on instrumental actions towards accomplishing its final goals.」が興味深かった。未来的ではあるが、本当に制御できるのか若干疑問。

OpenVLA

  • OpenVLA: An Open-Source Vision-Language-Action Model [131.7]
    我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。 モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 15:46:55 GMT)
  • オープンなVision-Language-Actionモデル、「Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions.」という設定でベースはLlama-2。PEFTの効果など非常に参考なる。
  • プロジェクトサイトはOpenVLA: An Open-Source Vision-Language-Action Model

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

  • MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
    MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 16:54:54 GMT)
  • 世界モデルとしてのMLLM(例えば物理現象をシミュレートできるか?など)を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
  • リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)

A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions

  • A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
    大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 03:15:13 GMT)
  • 医療分野へのLLM応用のサーベイ
  • 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。

Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.	

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

The Prompt Report: A Systematic Survey of Prompting Techniques 

  • The Prompt Report: A Systematic Survey of Prompting Techniques [42.6]
    本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 18:10:11 GMT)
  • プロンプトテクニックのサーベイ
  • 本当に色々あるという感想。そして本サーベイに入っていないものもいっぱいある…。