- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.6]
VBenchは、”ビデオ生成品質”を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。 我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (Wed, 20 Nov 2024 17:54:41 GMT) - Video generationのためのベンチマーク
- リポジトリはGitHub – Vchitect/VBench: [CVPR2024 Highlight] VBench – We Evaluate Video Generation、リーダーボードも公開されているVBench Leaderboard – a Hugging Face Space by Vchitect
投稿者: staka
LLM Augmentations to support Analytical Reasoning over Multiple Documents
- LLM Augmentations to support Analytical Reasoning over Multiple Documents [9.0]
本研究では,インテリジェンス解析の文脈内での深い解析的推論を強化するために,大規模言語モデル(LLM)の適用について検討する。 動的エビデンスツリー(DET)と呼ばれるメモリモジュールでLLMの能力を高めるアーキテクチャを開発し、複数の調査スレッドを開発・追跡する。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 06:00:42 GMT) - intelligence analysis におけるLLMの活用、使用の流れが興味深い
- リポジトリはGitHub – DiscoveryAnalyticsCenter/speculatores: [IEEE Big Data 2024] LLM Augmentations to support Analytical Reasoning over Multiple Documents
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
- Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering [51.3]
検証工学は、基礎モデルの時代のために特別に設計された新しいポストトレーニングパラダイムである。 検証工学のプロセスは,検索,検証,フィードバックの3段階に分類する。
論文 参考訳(メタデータ) (Mon, 18 Nov 2024 12:04:52 GMT) - 「The essence of verifier engineering lies in extending the construction of supervision signals beyond traditional manual feature extraction and data annotation. Instead, it utilizes a suite of effective automated verifiers to perform verification tasks and provide meaningful feedback to foundation models.」というverifier engineering の提案。重要性が増している分野なのは間違いないと思う、
- リポジトリはGitHub – icip-cas/Verifier-Engineering: Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
Shortcut Learning in In-Context Learning: A Survey
- Shortcut Learning in In-Context Learning: A Survey [17.2]
ショートカット学習(英: Shortcut learning)とは、モデルが実践的なタスクにおいて、単純で非破壊的な決定ルールを採用する現象を指す。 In-Context Learning(ICL)におけるショートカット学習に関する関連研究をレビューするための新しい視点を提供する。
論文 参考訳(メタデータ) (Mon, 04 Nov 2024 12:13:04 GMT) - In-context learningにおけるショートカット学習のサーベイ。ニッチな分野のような気がしつつ、問題になることは多いので参考になる。
OASIS: Open Agents Social Interaction Simulations on One Million Agents
- OASIS: Open Agents Social Interaction Simulations on One Million Agents [147.3]
実世界のソーシャルメディアプラットフォームに基づくスケーラブルなソーシャルメディアシミュレータを提案する。 OASISは最大100万人のユーザをモデリングできる大規模なユーザシミュレーションをサポートする。 我々は、情報拡散、グループ分極、XプラットフォームとRedditプラットフォーム間の群れ効果など、様々な社会現象を再現する。
論文 参考訳(メタデータ) (Mon, 18 Nov 2024 13:57:35 GMT) - 大規模ユーザシミュレーション環境の提案。「Using OASIS, we have reproduced several well-known social phenomena and uncovered unique behaviors emerging from LLM-driven simulations.」とのことで、現実環境の再現を行うにもLLM based Agentsは有効そう。
- リポジトリはGitHub – camel-ai/oasis: 🏝️ OASIS: Open Agents Social Interaction Simulations with One Million Agents
Dynamic-SUPERB Phase-2
- Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.8]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。 第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。 評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (Fri, 08 Nov 2024 06:33:22 GMT) - Dynamic-SUPERBのPhase2としてタスクが多様化・強化
- 現時点ではデータなどは公開されていないようだが、とても重要なベンチマーク
Autoregressive Models in Vision: A Survey
- Autoregressive Models in Vision: A Survey [119.2]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。 視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。 本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (Fri, 08 Nov 2024 17:15:12 GMT) - Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective – arXiv最新論文の紹介でも取り上げた通りVisionにも応用が進むAutoregressiveモデルのサーベイ。
- リポジトリはGitHub – ChaofanTao/Autoregressive-Models-in-Vision-Survey: The paper collections for the autoregressive models in vision.
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [87.2]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。 我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。 私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (Tue, 19 Nov 2024 16:54:45 GMT) - Code RAGなどで重要になるが難しいタスクであるEmbeddingモデルの提案、「Our 7B model sets a new state-ofthe-art (SOTA) in code retrieval, outperforming the previous leading model, Voyage-Code, by over 20% on CoIR benchmark.」とのこと。2Bのベースモデルはgemma-2-2b-it、7BだとMistral-7B-Instruct-v0.3などベースは様々。
- 現状モデルは公開されていないっぽいが、「By bridging the gap between text and code retrieval domains and releasing our models to the community, we aim to promote further research and innovation in developer tools and programming language understanding.」のと記載がある。
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
- SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory [23.5]
本稿では,視覚的物体追跡に特化して設計されたSAM 2を改良したSAmuraiを紹介する。 提案した動き認識メモリ選択機構に時間的動作手がかりを組み込むことで、物体の動きを効果的に予測し、マスク選択を洗練し、トレーニングや微調整を必要とせず、堅牢で正確なトラッキングを実現する。 評価では、既存のトラッカーよりも成功率と精度が大幅に向上し、LaSOT$_ext$で7.1%、GOT-10kで3.5%向上した。
論文 参考訳(メタデータ) (Mon, 18 Nov 2024 05:59:03 GMT) - オブジェクトトラッキングに特化しSAMを改良したSAM-based Unified and Robust zero-shot visual tracker with motionAware Instance-level memory、SAMURAI。
- リポジトリはGitHub – yangchris11/samurai: Official repository of “SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory”
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search / LLaVA-CoT(LLaVA-o1)
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.1]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。 本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (Mon, 18 Nov 2024 16:15:17 GMT) - o1-like reasoning systemsを実現するための検討、「In this paper, we present a preliminary exploration into enhancing the reasoning abilities of LLMs through reward-guided tree search algorithms.」とのこと。Marco-o1の報告、DeepSeek-R1の主張(A Chinese lab has released a ‘reasoning’ AI model to rival OpenAI’s o1 | TechCrunch)を含め、速攻で近いものの提案が始まる激しい競争環境。マルチモーダルでの有効性も報告(下記)されていて今後が楽しみ。
- サーベイに近いかと思いきや実験結果などもあり参考になる。
- LLaVA-o1: Let Vision Language Models Reason Step-by-Step [33.7]
LLaVA-o1は、自律的な多段階推論を実現するために設計された新しいVLMである。 チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-o1は独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。 100kのトレーニングサンプルと単純な推論時間スケーリング法により、LLaVA-o1はベースモデルよりも8.9%性能が向上する。
論文 参考訳(メタデータ) (Fri, 15 Nov 2024 18:58:31 GMT) - リポジトリはGitHub – PKU-YuanGroup/LLaVA-CoT: LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning、「Based on recent feedback from social media platforms like X, we have decided to rename LLaVA-o1 to LLaVA-CoT.」とのこと。