- DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.3]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。 堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。 モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 14:50:47 GMT) - 多様なレイアウトデータを合成する手法、Mesh-candidate BestFit methodologyの提案とそれを用いた高速高性能なDocLayout-YOLOの提案。
- リポジトリはGitHub – opendatalab/DocLayout-YOLO: DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception
Latent Action Pretraining from Videos
- Latent Action Pretraining from Videos [156.9]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。 本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (Tue, 15 Oct 2024 16:28:09 GMT) - インターネットにあるようなビデオデータからVLAを構築する手法の提案、「Across three benchmarks spanning both simulation and real-world robot experiments, we show that our method significantly improves transfer to downstream tasks compared to existing approaches.」とのこと
- プロジェクトサイトはLAPA
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
- MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (Thu, 10 Oct 2024 17:55:02 GMT) - マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
- リポジトリはMRAG-Bench (mragbench.github.io)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
- MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.8]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。 我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 23:03:27 GMT) - 医療ドメイン、かつ、マルチモーダルなRAGシステムの提案。ドメインを判別してRetireverを使い分けるなど凝った構成。「These enhancements significantly boost the factual accuracy of Med-LVLMs.」とのことで、この手の工夫は重要。
- リポジトリはGitHub – richard-peng-xia/MMed-RAG: [arXiv’24 & NeurIPSW’24] MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
Llama-3.1-Nemotron-70B, Ministral, Baichuan-Omni
NVidiaから「This model reaches Arena Hard of 85.0, AlpacaEval 2 LC of 57.6 and GPT-4-Turbo MT-Bench of 8.98, which are known to be predictive of LMSys Chatbot Arena Elo As of 1 Oct 2024, this model is #1 on all three automatic alignment benchmarks (verified tab for AlpacaEval 2 LC), edging out strong frontier models such as GPT-4o and Claude 3.5 Sonnet.」を主張するnvidia/Llama-3.1-Nemotron-70B-Instruct-HF · Hugging Face、Mistralからは小規模だが高性能なMinistralが発表されている(Un Ministral, des Ministraux | Mistral AI | Frontier AI in your hands)。Baichuan-Omni はテキスト、画像、動画、音声に対応したマルチモーダルモデルでOSSで公開するとのこと。商用非公開モデルの大きなニュースリリースが予定されているようでそれも楽しみだが、weightが公開されるモデルが増えるのはありがたい。
1つ目はLlama-3.1-Nemotron-70B-Reward と HelpSteer2-Preference prompts を用いてLlama-3.1-70B-Instruct modelをチューニングしたものとのこと。NVIDIAは高効率なアーキテクチャの研究も進めているなど要注目。
2つ目、3つ目のような小規模高性能モデルも様々出ており、性能も検証してみたいところ。
- HelpSteer2-Preference: Complementing Ratings with Preferences [45.0]
リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。 データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。 そこで我々はBradley-Terry styleとRegression reward Modelingを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (Wed, 02 Oct 2024 06:05:52 GMT)
- nGPT: Normalized Transformer with Representation Learning on the Hypersphere [23.7]
我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。 nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
論文 参考訳(メタデータ) (Tue, 01 Oct 2024 23:50:09 GMT)
- Baichuan-Omni Technical Report [28.3]
世界初のオープンソース 7B Multimodal Large Language Model (MLLM) であるBaichuan-Omni を紹介する。 画像, ビデオ, 音声, テキストのモダリティを同時に処理し, 解析するのに適していることを示す。 我々は,この貢献が,マルチモーダル理解とリアルタイムインタラクションを進める上で,オープンソースコミュニティの競争基盤となることを目指しています。
論文 参考訳(メタデータ) (Fri, 11 Oct 2024 06:44:31 GMT) - リポジトリはGitHub – westlake-baichuan-mllm/bc-omni: Baichuan-Omni: Towards Capable Open-source Omni-modal LLM 🌊
Agent-as-a-Judge: Evaluate Agents with Agents
- Agent-as-a-Judge: Evaluate Agents with Agents [61.3]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。 これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (Mon, 14 Oct 2024 17:57:02 GMT) - LLM-as-a-Judgeならぬ、Agent-as-a-Judge。確かに有効なのだろうと思う。「We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline.」とのこと。
- データセットがDEVAI-benchmark (DEVAI-benchmark)で公開されている。
BenTo: Benchmark Task Reduction with In-Context Transferability
- BenTo: Benchmark Task Reduction with In-Context Transferability [32.6]
本稿では,大規模言語モデル(LLM)のベンチマークに使用するタスクを効率的に削減する方法を検討する。 In-context Learning (ICL) による2つのタスク間の伝達可能性を推定する実用的な指標を提案する。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 17:41:15 GMT) - 評価が難しいLLM評価用のタスクを効率的に削減する手法の提案。Benchmark Task reductiOn (BENTO)は無理があるのでは、、、と思わなくはないがとても面白い研究。
- リポジトリはGitHub – tianyi-lab/BenTo: Code for “BENTO: benchmark reduction with in-context learning transferability”
Underwater Object Detection in the Era of Artificial Intelligence: Current, Challenge, and Future
- Underwater Object Detection in the Era of Artificial Intelligence: Current, Challenge, and Future [119.9]
水中物体検出(UOD)は、水中の画像やビデオ中の物体を識別し、ローカライズすることを目的としている。 近年、人工知能(AI)に基づく手法、特に深層学習法は、UODにおいて有望な性能を示している。
論文 参考訳(メタデータ) (Tue, 08 Oct 2024 00:25:33 GMT) - 水中の物体認識に関するサーベイ。
- リポジトリはGitHub – LongChenCV/UODReview
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
- Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6]
Agent Security Bench (ASB) は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。 我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。 ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 16:30:47 GMT) - エージェントに対する攻撃と防御のベンチマーク。基礎性能が高くないとそもそもASRが低いが、性能が高いと攻撃を拒否することも可能になるように見える。結果が興味深い。
- リポジトリはGitHub – agiresearch/ASB: Agent Security Bench (ASB)
GenSim2
- GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.3]
GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。 パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。 我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
論文 参考訳(メタデータ) (Fri, 04 Oct 2024 17:51:33 GMT) - (1) task proposal, (2) solver creation, (3) multi-task training, and (4) generalization evaluation and sim-to-real transfer.からなるフレームワークの提案。各所にLLM、MLLMを活用しながらデータ合成を行っていくアプローチ。(NLPのライブラリ gensimではない)
- プロジェクトサイトはGenSim2: Scaling Robotic Data Generation with Multi-modal and Reasoning LLMs
- GenSim: A General Social Simulation Platform with Large Language Model based Agents [110.4]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。 我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。 我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (Sun, 06 Oct 2024 05:02:23 GMT) - 大規模なLLM based Agentのシミュレーションプラットフォーム(これもNLPのgemsimではない)
- リポジトリはGitHub – TangJiakai/GenSim