Mixture-of-Agents Enhances Large Language Model Capabilities

  • Mixture-of-Agents Enhances Large Language Model Capabilities [34.7]
    我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。 提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。 MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 07:04:10 GMT)
  • 名前からしても強力そうなMixture-of-Agents、階層型で複数のLLMの結果を踏まえて解を求めていく動作のよう。オープンソースモデル(Qwen1.5 110B-Chat、Qwen1.5 72B-Chat、WizardLM-8x22B、 LLaMA-3-70B-Instruct 、 Mixtral-8x22B-v0.1、dbrx-instruct)の複合でGPT-4oを上回ったのは凄い。
  • リポジトリはGitHub – togethercomputer/MoA

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

  • Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.1]
    Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。 これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 14:07:02 GMT)
  • ToTの経路を用いてチューニング(DPO)するChain of Preference Optimizationにより、CoTを超え、ToTに近い性能を達成、計算時間も抑えられるとする論文。シンプルにSFTするTS-SFTより性能が高いのが意外。
  • リポジトリはGitHub – sail-sg/CPO

A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions

  • A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
    大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 03:15:13 GMT)
  • 医療分野へのLLM応用のサーベイ
  • 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。

Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.	

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

  • Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.5]
    利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。 モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明を提供する。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 23:23:54 GMT)
  • 強力なはずのLLMが単純な問題「Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?」に回答できないという指摘。MMLUの結果との乖離が大きい。
    • Leakを含め色々な問題があるんだろうと思うけど、「We also noticed during early experimentation that depending on choice of N and M and also the ordering of brothers and sisters in the sentence, the rate of correct responses may vary substantially.」は面白い。
  • リポジトリはGitHub – LAION-AI/AIW: Alice in Wonderland code base for experiments and raw experiments data

Buffer of Thoughts, Chain of Agents

なんとか of Thoughts、Chain of なんとかというタイプの改善手法提案は多い。

  • Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.5]
    Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。 そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。 各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:22:08 GMT)
  • メタバッファにあるThought template を使用しながら深く試行していく手法の提案。ToTなどを上回る性能を主張。メタバッファ自体を更新していくアーキテクチャで評価が難しそうな気がする。
  • リポジトリはGitHub – YangLing0818/buffer-of-thought-llm: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

  • Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.3]
    CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
    論文  参考訳(メタデータ)   (Tue, 04 Jun 2024 23:36:08 GMT)
  • 主に長いコンテキストの問題に対応するためのマルチエージェントなフレームワークの提案。長いデータをチャンクに分けワーカエージェントに処理させ(シーケンシャルな通信を含む)、マネージャーエージェントが取りまとめるような動作。よく使われるRAGより高性能であるとのこと。

GLM-4-9B, Qwen2

ZHIPU AI OPEN PLATFORM (bigmodel.cn)より、GLM4 9Bが、About Us | Qwen (qwenlm.github.io)よりQwen2が発表された。いずれもWeightが公開されている。「While Qwen2-72B as well as its instruction-tuned models still uses the original Qianwen License, all other models, including Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, and Qwen2-57B-A14B, turn to adopt Apache 2.0!」(Hello Qwen2 | Qwen (qwenlm.github.io))と、Qwen2の小型モデルはOSSである。

いつもの英語→日本語の機械翻訳性能で検証しているが、両モデルともに1 shotでBELUが30前後とかなり優秀である。中国の研究機関によるモデルは日本語性能が高いことが多く期待大。

X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions 

  • X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions [43.9]
    大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。 そこで本研究では,低リソース言語における英語の命令と応答を併用した言語間命令を新たに構築する手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 06:45:23 GMT)
  • 下記3段階(リポジトリより)で低リソースな言語用にcross-lingual instructions datasetを作る手法の提案。
    • X-Instruction Generation: Language models learn to generate cross-lingual instructions for multilingual texts using seed data.
    • X-Instruction Refinement: Language models iteratively label and refine cross-lingual instruction samples.
    • X-Instruction Diversification: The final instruction data are sampled from different clusters of embedding from the English instruction to increase the diversity.
  • リポジトリはGitHub – ZNLP/X-Instruction: Official code and data for ACL-2024 paper “X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions”

The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities 

  • The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities [18.2]
    機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。 モデルサイズは70億から65億までの範囲で,LLaMAおよびファルコン系のモデルに対して広範な翻訳評価を行う。 フォーマルなステアリングを行う能力の低下、数ショットの例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 14:25:56 GMT)
  • 「Our results show that while fine-tuning improves the general translation quality of LLMs, several abilities degrade.」に対して「We show that incorporating a mix of monolingual and parallel data during fine-tuning can preserve abilities of LLMs.」とのこと
  • 翻訳特化にしたら下がる能力もあるのは当然だと思うが、単言語なデータを入れるのみで能力の維持が可能というのに驚き。

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

  • Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.2]
    本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。 我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。 大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
    論文  参考訳(メタデータ)   (Mon, 20 May 2024 07:34:48 GMT)
  • 社会的知性を測るためのベンチマーク、対象はInverse Reasoning (IR) とInverse Inverse Planning (IIP)。GPT-4でもタスクによっては人間とギャップがある。結論の「We hope that our study contributes valuable information towards the advancement of ASI.」にASIが出ているのに少しびっくり。
  • リポジトリはGitHub – bigai-ai/Evaluate-n-Model-Social-Intelligence