Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

  • Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.4]
    モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。 これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
    論文  参考訳(メタデータ)   (Wed, 14 Aug 2024 16:58:48 GMT)
  • 最近、よく話題に上がるモデルマージに関するサーベイ

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

  • RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.7]
    大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。 現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 07:20:48 GMT)
  • RAGに関するモジュール型フレームワーク、「open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics.」とあるが、実利用でも抽象化しすぎて使いにくいことは多い印象…
  • リポジトリはGitHub – fate-ubw/RAGLAB: RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

Deep Generative Models in Robotics / Deep Reinforcement Learning for Robotics

AIとロボティクスの融合は重要な研究分野。近年だと生成AIとの融合が話題だが、深層強化学習に関しても研究が多い。この分野のサーベイはとてもありがたい。

  • Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.1]
    近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。 本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。 また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 11:34:31 GMT)
  • 生成モデルとロボティクスに関するサーベイ。
  • Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes [44.6]
    強化学習(RL)は、広範囲のアプリケーションで非常に有望である。 ロボットの問題は、物理世界との相互作用の複雑さとコストから起因して、RLの応用に根本的な困難をもたらす。 この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。
    論文  参考訳(メタデータ)   (Wed, 7 Aug 2024 04:35:38 GMT)
  • 深層強化学習とロボティクスに関するサーベイ。

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding 

  • When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.4]
    CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。 復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 11:36:18 GMT)
  • ビデオ符号化に対するMLLMの適用、マルチモーダル性を活用した手法であり興味深い。実用化にはハードルがありそうだが、可能性を感じる結果。

Speech-MASSIVE

Leveraging Web-Crawled Data for High-Quality Fine-Tuning

  • Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.2]
    我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。 我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。 実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 08:12:52 GMT)
  • 「Drawing on the intuition that rewriting data is comparatively simpler than performing intricate reasoning tasks for LLMs, we propose a method to augment the dataset by converting web-crawled data into high-quality ones.」という手法の提案。小規模なシードデータと大規模なクローリングデータのマッチングをとり、専用モデルを作るアプローチ。クリーニングが大変なのが伝わってくる。数学的な問題のバリエーションはとても多そうだけど、この方針でうまくいくのはなぜなのだろうか。。。(有名な問題の別解情報が使われているんだろうか)
  • リポジトリはGitHub – zhouj8553/Web_to_SFT: official code for the paper “Leveraging Web-Crawled Data for High-Quality Fine-Tuning”

VITA: Towards Open-Source Interactive Omni Multimodal LLM

SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction

  • SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.2]
    小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。 本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。 その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
    論文  参考訳(メタデータ)   (Sun, 11 Aug 2024 04:53:12 GMT)
  • SMILESに対してもMambaが有効とのこと
  • transformerの代替として有望そう

Fairness and Bias Mitigation in Computer Vision: A Survey 

  • Fairness and Bias Mitigation in Computer Vision: A Survey [61.0]
    コンピュータビジョンシステムは、高精細な現実世界のアプリケーションにますますデプロイされている。 歴史的または人為的なデータにおいて差別的な傾向を伝播または増幅しないことを確実にする必要がある。 本稿では,コンピュータビジョンの文脈における現在進行中の傾向と成功をまとめた,公平性に関する総合的な調査を行う。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 13:44:22 GMT)
  • コンピュータビジョンにおける公平性のサーベイ。
  • 生成モデルの流行で注目されている分野であり、研究の進展もとても速い。

A Survey of Mamba 

  • A Survey of Mamba [26.7]
    近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。 本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 09:18:41 GMT)
  • 期待が膨らむMambaのサーベイ。
  • 「Mamba, an emerging deep learning architecture, has demonstrated remarkable success across diverse domains, such as language generation, image classification, recommendation, and drug discovery, owing to its powerful modeling capabilities and computational efficiency.」と、Transformerを超えていけるか楽しみ。