The BiGGen Bench

OmniCorpus、mOSCAR

マルチモーダル、マルチリンガルな巨大データセットが発表されていた。

  • OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [114.0]
    我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。 私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。 これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 17:01:04 GMT)
  • 「8.6 billion images and 1,696 billion text tokens」という巨大なマルチモーダル・マルチリンガルなデータセット
  • リポジトリはGitHub – OpenGVLab/OmniCorpus: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
  • mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.8]
    ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。 さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 00:13:32 GMT)
  • OSCARプロジェクトによるデータセット。「We mostly filter “not safe for work” (NSFW) content at the document level.」とのこと。
  • リポジトリはmOSCAR – OSCAR Documentation (oscar-project.github.io)

An Empirical Study of Mamba-based Language Models

  • An Empirical Study of Mamba-based Language Models [69.7]
    Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。 同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 05:25:15 GMT)
  • Mambaの実験的検証。8B、3.5T tokensでmamba、mamba2、transformerを比較。「Our results show that while pure SSM-based models match or exceed Transformers on many tasks, both Mamba and Mamba-2 models lag behind Transformer models on tasks which require strong copying or in-context learning abilities (e g , five-shot MMLU, Phonebook Lookup) or long-context reasoning.」、「we find that the 8B-parameter Mamba2-Hybrid exceeds the 8B-parameter Transformer on all 12 standard tasks we evaluated (+2.65 points on average) and is predicted to be up to 8× faster when generating tokens at inference time.」との結果。今までの論文と比べて意外性はないが、包括的な検証はとても参考になる。ハイブリッド構成はとても有効な選択肢に見えた。
  • リポジトリはMegatron-LM/examples/mamba at ssm · NVIDIA/Megatron-LM · GitHub

Mixture-of-Agents Enhances Large Language Model Capabilities

  • Mixture-of-Agents Enhances Large Language Model Capabilities [34.7]
    我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。 提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。 MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 07:04:10 GMT)
  • 名前からしても強力そうなMixture-of-Agents、階層型で複数のLLMの結果を踏まえて解を求めていく動作のよう。オープンソースモデル(Qwen1.5 110B-Chat、Qwen1.5 72B-Chat、WizardLM-8x22B、 LLaMA-3-70B-Instruct 、 Mixtral-8x22B-v0.1、dbrx-instruct)の複合でGPT-4oを上回ったのは凄い。
  • リポジトリはGitHub – togethercomputer/MoA

A Survey of Transformer Enabled Time Series Synthesis 

  • A Survey of Transformer Enabled Time Series Synthesis [38.9]
    生成AIは画像と言語領域で多くの注目を集めている。 本稿では,変換器,生成AI,時系列データの交点におけるこのギャップを明らかにする。 レビューされた研究はアプローチの多様さを示しており、ドメインがもたらす問題に対する決定的な回答にはまだ収束していない。
    論文  参考訳(メタデータ)   (Tue, 04 Jun 2024 13:52:42 GMT)
  • Transformerと時系列データに関するサーベイ
  • TNNでtransformer neural network はあまり見ない略し方

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

  • Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.1]
    Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。 これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 14:07:02 GMT)
  • ToTの経路を用いてチューニング(DPO)するChain of Preference Optimizationにより、CoTを超え、ToTに近い性能を達成、計算時間も抑えられるとする論文。シンプルにSFTするTS-SFTより性能が高いのが意外。
  • リポジトリはGitHub – sail-sg/CPO

Memorization in deep learning: A survey 

  • Memorization in deep learning: A survey [26.7]
    近年の研究では、Deep Neural Networks(DNN)が一般的なパターンを学習するのではなく、例から特定の詳細を記憶する傾向にある興味深い現象が明らかになった。 これにより、DNNにおける一般化の性質と、セキュリティ侵害に対する感受性に関する批判的な疑問が提起される。 一般化とセキュリティ/プライバシドメインに基づく記憶定義を整理するための体系的枠組みを提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 09:17:40 GMT)
  • DNNにおける記憶(、知識)についてのサーベイ
  • 著作権の観点で一般化しているのか丸暗記しているのか、実用の観点では個別の記憶を持たせられるのか編集出来るのかなど、様々な観点で重要な性質であり、まとまったサーベイはありがたい。

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

  • Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.7]
    近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。 人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 16:03:25 GMT)
  • AI アライメントに関するサーベイで400以上の文献を調査した包括的なもの。Overall Author List and Contributions からの幅広い分野の方が調査に参加している。
  • 個人的には「Challenge 3: Safeguarding Co-adaptation」の「As advanced AI systems become increasingly complex, they present greater challenges for human interpretation and control. To address this, it is crucial to empower humans to detect and interpret AI misconduct on instrumental actions towards accomplishing its final goals.」が興味深かった。未来的ではあるが、本当に制御できるのか若干疑問。

OpenVLA

  • OpenVLA: An Open-Source Vision-Language-Action Model [131.7]
    我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。 モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 15:46:55 GMT)
  • オープンなVision-Language-Actionモデル、「Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions.」という設定でベースはLlama-2。PEFTの効果など非常に参考なる。
  • プロジェクトサイトはOpenVLA: An Open-Source Vision-Language-Action Model

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

  • MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
    MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 16:54:54 GMT)
  • 世界モデルとしてのMLLM(例えば物理現象をシミュレートできるか?など)を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
  • リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)