Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.	

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

The Prompt Report: A Systematic Survey of Prompting Techniques 

  • The Prompt Report: A Systematic Survey of Prompting Techniques [42.6]
    本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 18:10:11 GMT)
  • プロンプトテクニックのサーベイ
  • 本当に色々あるという感想。そして本サーベイに入っていないものもいっぱいある…。

Towards Vision-Language Geo-Foundation Model: A Survey

  • Towards Vision-Language Geo-Foundation Model: A Survey [65.7]
    Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。 本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:57:30 GMT)
  • Vision-Language Geo-Foundation Model(VLGFM)に関するサーベイ。Vision & Languageな基盤モデルで地球観測(地理的なもの)を含むものをVLGFMとしている。数多く発表されているのに若干驚き。
  • リポジトリはGitHub – zytx121/Awesome-VLGFM: A Survey on Vision-Language Geo-Foundation Models (VLGFMs)

DeepStack

  • DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs [137.9]
    ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:59:34 GMT)
  •  Vision-Languageの構成で単純に第一層にVisionのデータを投入するのではなく、複数の層に情報を供給することで性能が高くなるとのこと。レイヤごとに解像度を変える戦略。TextVQA, DocVQA, InfoVQAでLLaVA 1.5を改善。 
  • リポジトリはDeepStack (deepstack-vl.github.io)

Improving In-Context Learning with Prediction Feedback for Sentiment Analysis

  • Improving In-Context Learning with Prediction Feedback for Sentiment Analysis [45.5]
    大規模言語モデル(LLM)は、文脈内学習(ICL)パラダイムを通じて感情分析において有望な結果を得た。 人間のフィードバックによる理解の調整能力にインスパイアされた本論文は,事前の予測とフィードバックを取り入れたICLを強化する。 9つの感情分析データセットによる実験結果から,従来のICL法よりもフレームワークが優れていることが示され,平均F1改善率は5.95%となった。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 04:04:08 GMT)
  • 「(1) acquiring prior predictions of LLMs, (2) devising predictive feedback based on correctness, and (3) leveraging a feedbackdriven prompt to refine sentiment understanding.」と、実利用時に「予測結果へのFeedback付きのデータ」を入れICLを行うことで性能を改善。
  • リポジトリはGitHub – HITSZ-HLT/Feedback-ICL

LLMs Meet Multimodal Generation and Editing: A Survey

  • LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
    本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。 具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。 最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:59:20 GMT)
  • 実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
  • 論文リストはリポジトリになっている GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

Tool-Planner

  • Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering [30.3]
    ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。 Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。 ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 07:30:14 GMT)
  • Agenticな動作で重要なツール選定を行わせるためのフレームワークの提案。ツールをクラスタリングして扱うことが有効というのは本当かと思いつつ、似たようなAPIが乱立している状況だとそうなるのかなと思わなくはない。
  • リポジトリはhttps://github.com/OceannTwT/Tool-Plannerとのことだが現時点では404

AgentGymとAGENTEVOL

An Introduction to Vision-Language Modeling

  • An Introduction to Vision-Language Modeling [128.6]
    視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
    論文  参考訳(メタデータ)   (Mon, 27 May 2024 15:01:23 GMT)
  • VLMのサーベイ、であり、教科書的な内容

Mamba-2、様々なMambaの応用先

次世代Transformerとして期待されるSSMについて複数の論文が出ていた。最初の論文はMamba-2として、Mamba以上の構造を提案している。その他、様々なドメインで有効性が検証されている。Transformerは重い構造なのでこの手の改善への期待は大きい。

  • Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [32.0]
    Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。 我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:50:01 GMT)
  • Mamba-2の提案、小規模(といっても2.7B)の検証で効果を確認している。
  • リポジトリはGitHub – state-spaces/mamba: Mamba SSM architecture
  • Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.5]
    本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。 我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 15:00:59 GMT)
  • 音声を扱うMamba
  • リポジトリはGitHub – mhamzaerol/Audio-Mamba-AuM
  • RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.9]
    我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。 具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。 一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
    論文  参考訳(メタデータ)   (Thu, 6 Jun 2024 17:59:47 GMT)
  • ロボットのためのMamba、ReasoningだけでなくManipurationを対象にしているのがすごい
  • リポジトリはRoboMamba (google.com)
  • CDMamba: Remote Sensing Image Change Detection with Mamba [30.4]
    我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。 具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 16:04:30 GMT)
  • Change DetectionのためのMamba
  • リポジトリはGitHub – zmoka-zht/CDMamba