Memorization in deep learning: A survey 

  • Memorization in deep learning: A survey [26.7]
    近年の研究では、Deep Neural Networks(DNN)が一般的なパターンを学習するのではなく、例から特定の詳細を記憶する傾向にある興味深い現象が明らかになった。 これにより、DNNにおける一般化の性質と、セキュリティ侵害に対する感受性に関する批判的な疑問が提起される。 一般化とセキュリティ/プライバシドメインに基づく記憶定義を整理するための体系的枠組みを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 09:17:40 GMT)
  • DNNにおける記憶(、知識)についてのサーベイ
  • 著作権の観点で一般化しているのか丸暗記しているのか、実用の観点では個別の記憶を持たせられるのか編集出来るのかなど、様々な観点で重要な性質であり、まとまったサーベイはありがたい。

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

  • Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.7]
    近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。 人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 16:03:25 GMT)
  • AI アライメントに関するサーベイで400以上の文献を調査した包括的なもの。Overall Author List and Contributions からの幅広い分野の方が調査に参加している。
  • 個人的には「Challenge 3: Safeguarding Co-adaptation」の「As advanced AI systems become increasingly complex, they present greater challenges for human interpretation and control. To address this, it is crucial to empower humans to detect and interpret AI misconduct on instrumental actions towards accomplishing its final goals.」が興味深かった。未来的ではあるが、本当に制御できるのか若干疑問。

OpenVLA

  • OpenVLA: An Open-Source Vision-Language-Action Model [131.7]
    我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。 モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 15:46:55 GMT)
  • オープンなVision-Language-Actionモデル、「Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions.」という設定でベースはLlama-2。PEFTの効果など非常に参考なる。
  • プロジェクトサイトはOpenVLA: An Open-Source Vision-Language-Action Model

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

  • MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
    MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 16:54:54 GMT)
  • 世界モデルとしてのMLLM(例えば物理現象をシミュレートできるか?など)を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
  • リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)

A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions

  • A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
    大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 03:15:13 GMT)
  • 医療分野へのLLM応用のサーベイ
  • 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。

Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.	

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

The Prompt Report: A Systematic Survey of Prompting Techniques 

  • The Prompt Report: A Systematic Survey of Prompting Techniques [42.6]
    本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 18:10:11 GMT)
  • プロンプトテクニックのサーベイ
  • 本当に色々あるという感想。そして本サーベイに入っていないものもいっぱいある…。

Towards Vision-Language Geo-Foundation Model: A Survey

  • Towards Vision-Language Geo-Foundation Model: A Survey [65.7]
    Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。 本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:57:30 GMT)
  • Vision-Language Geo-Foundation Model(VLGFM)に関するサーベイ。Vision & Languageな基盤モデルで地球観測(地理的なもの)を含むものをVLGFMとしている。数多く発表されているのに若干驚き。
  • リポジトリはGitHub – zytx121/Awesome-VLGFM: A Survey on Vision-Language Geo-Foundation Models (VLGFMs)

DeepStack

  • DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs [137.9]
    ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:59:34 GMT)
  •  Vision-Languageの構成で単純に第一層にVisionのデータを投入するのではなく、複数の層に情報を供給することで性能が高くなるとのこと。レイヤごとに解像度を変える戦略。TextVQA, DocVQA, InfoVQAでLLaVA 1.5を改善。 
  • リポジトリはDeepStack (deepstack-vl.github.io)

Improving In-Context Learning with Prediction Feedback for Sentiment Analysis

  • Improving In-Context Learning with Prediction Feedback for Sentiment Analysis [45.5]
    大規模言語モデル(LLM)は、文脈内学習(ICL)パラダイムを通じて感情分析において有望な結果を得た。 人間のフィードバックによる理解の調整能力にインスパイアされた本論文は,事前の予測とフィードバックを取り入れたICLを強化する。 9つの感情分析データセットによる実験結果から,従来のICL法よりもフレームワークが優れていることが示され,平均F1改善率は5.95%となった。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 04:04:08 GMT)
  • 「(1) acquiring prior predictions of LLMs, (2) devising predictive feedback based on correctness, and (3) leveraging a feedbackdriven prompt to refine sentiment understanding.」と、実利用時に「予測結果へのFeedback付きのデータ」を入れICLを行うことで性能を改善。
  • リポジトリはGitHub – HITSZ-HLT/Feedback-ICL