コンテンツへスキップ
- Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。 セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。 本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 18:58:54 GMT)
- 「By leveraging the knowledge from both LLaVA and SAM-2, our model has strong capabilities in both mask and language generation.」とのこと。なるほど、という感じ。
- リポジトリはSa2VA
- LLM4SR: A Survey on Large Language Models for Scientific Research [15.5]
大きな言語モデル(LLM)は、研究サイクルの様々な段階にわたって前例のないサポートを提供する。 本稿では,LLMが科学的研究プロセスにどのように革命をもたらすのかを探求する,最初の体系的な調査について述べる。
論文 参考訳(メタデータ) (Wed, 08 Jan 2025 06:44:02 GMT)
- LLM、特にAgenticな動作が流行って以降、実用性がでてきている感のある研究へのLLM利用に関するサーベイ。仮説を作るところからピアレビューまで一連のプロセスを対象にしている。
- Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.2]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。 異なる言語群に対する学習がいかに異なるかを検討する。 私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (Thu, 09 Jan 2025 10:26:14 GMT)
- Large Vision-Language Modelにおける多言語化の検証、英語のパフォーマンスを低下させることなく対応可能な言語数などに焦点を当てている。「our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding.」は興味深い結果。LLaVAアーキテクチャ、2.8BのPhi3.5、Llama 3 8Bでの検証。
- その後、「After benchmarking different 7-9B parameter LLMs, we find that Aya-Expanse and Qwen 2.5 give the overall best results.」の結果、Aya-ExpanseとQwen 2.5を用いてモデル構築を行っている。
- リポジトリはCenturio: On Drivers of Multilingual Ability of Large Vision-Language Model
- VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [104.4]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。 提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。 画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文 参考訳(メタデータ) (Fri, 03 Jan 2025 18:59:52 GMT)
- VisionとSpeechに対応したマルチモーダルな対話モデル構築のため、3段階での学習方法を提案。「The input side consists of vision and audio encoders, along with their adapters connected to a LLM. The output side has an end-to-end speech generation module, rather than directly using an external TTS model as the initial VITA-1.0 version」というアーキテクチャ。性能は公開モデルや商用モデルと競合するレベル。
- リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
- rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking [15.4]
本稿では,小型言語モデル (SLM) が OpenAI o1 の算術的推論能力に匹敵するか,超越するかを示すために rStar-Math を提案する。 我々はモンテカルロ木探索(MCTS)を通して「深層思考」を実践し,SLMに基づくプロセス報酬モデルによるテスト時間探索を行う。
論文 参考訳(メタデータ) (Wed, 08 Jan 2025 14:12:57 GMT)
- 「In this work, we present rStar-Math, a self-evolved System 2 deep thinking approach that significantly boosts the math reasoning capabilities of small LLMs, achieving state-of-the-art OpenAI o1-level performance.」と流行りのアプローチ、self-evolvedという表現に未来を感じるとともに、比較的小規模なモデルでも高いスコアをとれていることが興味深い
- リポジトリはhttps://github.com/microsoft/rStar。現時点では404?
- PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [53.2]
プレゼンテーションを自動生成する2段階の編集手法を提案する。 PPTAgentはまずプレゼンテーションを分析して,その構造パターンやコンテントスキーマを理解します。 実験の結果,PPTAgentは従来の3次元のプレゼンテーション生成方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 16:53:01 GMT)
- プレゼンテーションの自動作成。PPTとPDFを入力、ステージ1でリファレンスとなるPPTを解析、ステージ2でアウトライン生成→スライド生成を行う2段階のアプローチ。「To address the limitations of existing automated metrics for presentation evaluation, we introduce PPT Eval, a comprehensive framework for assessing presentation quality from multiple perspectives.」と評価機構も構築(内部的にはGPT-4oを利用)
- リポジトリはGitHub – icip-cas/PPTAgent
- Cosmos World Foundation Model Platform for Physical AI [136.1]
物理AIには、自分自身のデジタルツイン、ポリシーモデル、そして世界のデジタルツイン、ワールドモデルが必要です。 私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 06:55:50 GMT)
- バズっていたNVIDIAによるWorld Foundation Model。「Our platform covers a video curation pipeline, pre-trained world foundation models, examples of post-training of pre-trained world foundation models, and video tokenizers.」と包括的な構成でモデルを公開しているのはすごい。
- 構築過程で「We refine our data by excluding specific video types that could lead to poor generation quality or unrealistic dynamics, such as abstract visual patterns, video game footage, animated content, etc.」があるのが面白かった。unrealistic dynamicsはそうだろうと思う。
- 現状は初期段階、問題も多そうではあるが今後の発展に期待。現状の進化で作れるのか、根幹のモデルアーキテクチャが変わらないとできないのか、とても興味がある。
- リポジトリはGitHub – NVIDIA/Cosmos: Cosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs. Cosmos is purpose built for physical AI. The Cosmos repository will enable end users to run the Cosmos models, run inference scripts and generate videos.
- Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.7]
HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。 テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。 認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
論文 参考訳(メタデータ) (Thu, 02 Jan 2025 15:36:50 GMT)
- 「We propose HaluSearch, which integrates tree search-based algorithms (e g , MCTS) to explicitly implement a slow thinking process during the inference stage of LLMs, fully exploiting their own internal knowledge to mitigate hallucinations in generated text.」、各ステップの報酬を評価するスタイル。「To facilitate self-evaluation, we trained the reward model using data synthesized by the HaluSearch framework to assess the degree of hallucinations and provide reward signals.」とのこと。「Additionally, to improve efficiency, we introduced a dynamic system switch mechanism, which utilizes a trained switch model to enable LLMs to adaptively alternate between fast and slow thinking modes at both the instance and step levels.」という機構を有することが特徴的で、overthinking対策としても有望そうな感じがする。
- 現時点での全部入り的なアプローチで面白い。