VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

  • VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [104.4]
    視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。 提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。 画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
    論文  参考訳(メタデータ)   (Fri, 03 Jan 2025 18:59:52 GMT)
  • VisionとSpeechに対応したマルチモーダルな対話モデル構築のため、3段階での学習方法を提案。「The input side consists of vision and audio encoders, along with their adapters connected to a LLM. The output side has an end-to-end speech generation module, rather than directly using an external TTS model as the initial VITA-1.0 version」というアーキテクチャ。性能は公開モデルや商用モデルと競合するレベル。
  • リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Long Context vs. RAG for LLMs: An Evaluation and Revisits 

  • Long Context vs. RAG for LLMs: An Evaluation and Revisits [41.3]
    本稿は、このトピックに関する最近の研究を再考し、その重要な洞察と相違点を明らかにする。 LCは、特にウィキペディアベースの質問に対して、質問応答ベンチマークにおいてRAGよりも優れていた。 また,既存の研究における文脈関連性の重要性を概観する,詳細な議論もおこなう。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 14:34:37 GMT)
  • Revisiting In-Context Learning with Long Context Language Models  – arXiv最新論文の紹介に近いが、Long Context vs RAGの検証。「The results indicate that LC generally outperforms RAG for tasks involving wellstructured, dense contexts—such as Wikipedia articles and books—and is better at answering questions requiring specific information. By contrast, RAG demonstrates advantages in handling fragmented information, particularly in dialogue-based scenarios and for more general questions.」と一長一短。
  • これでOKと断言しにくい結果ではあるが、幅広い検証がとても参考になる。
  • リポジトリはGitHub – lixinze777/LC_VS_RAG: Offcial Page for Long Context vs. RAG for LLMs: An Evaluation and Revisits

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM 

  • Virgo: A Preliminary Exploration on Reproducing o1-like MLLM [89.5]
    スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。 マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。 本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。 自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
    論文  参考訳(メタデータ)   (Fri, 03 Jan 2025 17:14:16 GMT)
  • o1-likeな推論に時間をかけるアプローチがMLLMにおいても有効であるとの報告。それはそうなんだろうと思うが、猛追という感じ。
  • リポジトリはGitHub – RUCAIBox/Virgo: Official code of *Virgo: A Preliminary Exploration on Reproducing o1-like MLLM*

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking 

  • rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking [15.4]
    本稿では,小型言語モデル (SLM) が OpenAI o1 の算術的推論能力に匹敵するか,超越するかを示すために rStar-Math を提案する。 我々はモンテカルロ木探索(MCTS)を通して「深層思考」を実践し,SLMに基づくプロセス報酬モデルによるテスト時間探索を行う。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 14:12:57 GMT)
  • 「In this work, we present rStar-Math, a self-evolved System 2 deep thinking approach that significantly boosts the math reasoning capabilities of small LLMs, achieving state-of-the-art OpenAI o1-level performance.」と流行りのアプローチ、self-evolvedという表現に未来を感じるとともに、比較的小規模なモデルでも高いスコアをとれていることが興味深い
  • リポジトリはhttps://github.com/microsoft/rStar。現時点では404?

PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

  • PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [53.2]
    プレゼンテーションを自動生成する2段階の編集手法を提案する。 PPTAgentはまずプレゼンテーションを分析して,その構造パターンやコンテントスキーマを理解します。 実験の結果,PPTAgentは従来の3次元のプレゼンテーション生成方法よりも大幅に優れていた。
    論文  参考訳(メタデータ)   (Tue, 07 Jan 2025 16:53:01 GMT)
  • プレゼンテーションの自動作成。PPTとPDFを入力、ステージ1でリファレンスとなるPPTを解析、ステージ2でアウトライン生成→スライド生成を行う2段階のアプローチ。「To address the limitations of existing automated metrics for presentation evaluation, we introduce PPT Eval, a comprehensive framework for assessing presentation quality from multiple perspectives.」と評価機構も構築(内部的にはGPT-4oを利用)
  • リポジトリはGitHub – icip-cas/PPTAgent

Cosmos World Foundation Model Platform for Physical AI 

Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking

  • Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.7]
    HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。 テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。 認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 15:36:50 GMT)
  • 「We propose HaluSearch, which integrates tree search-based algorithms (e g , MCTS) to explicitly implement a slow thinking process during the inference stage of LLMs, fully exploiting their own internal knowledge to mitigate hallucinations in generated text.」、各ステップの報酬を評価するスタイル。「To facilitate self-evaluation, we trained the reward model using data synthesized by the HaluSearch framework to assess the degree of hallucinations and provide reward signals.」とのこと。「Additionally, to improve efficiency, we introduced a dynamic system switch mechanism, which utilizes a trained switch model to enable LLMs to adaptively alternate between fast and slow thinking modes at both the instance and step levels.」という機構を有することが特徴的で、overthinking対策としても有望そうな感じがする。
  • 現時点での全部入り的なアプローチで面白い。

Search-o1: Agentic Search-Enhanced Large Reasoning Models

  • Search-o1: Agentic Search-Enhanced Large Reasoning Models [24.2]
    OpenAI-o1のような大きな推論モデル(LRM)は、大規模な強化学習を通じて、大きなステップワイズ推論能力を実証している。 エージェント検索拡張生成(RAG)機構とReason-in-Documentsモジュールを併用し,LRMを強化するフレームワークである textbfSearch-o1 を紹介する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 16:48:17 GMT)
  • RAG + Large Rrasoning Modelなフレームワークの提案。Agenticなアプローチに見えなくもないが、「(a) Direct reasoning without retrieval often results in inaccuracies due to missing knowledge. (b) Our agentic retrieval-augmented reasoning approach improves knowledge access but usually returns lengthy, redundant documents, disrupting coherent reasoning. (c) Our Search-o1 integrates concise and accurate retrieved knowledge seamlessly into the reasoning process, enabling precise and coherent problem-solving.」とReason-in-Documentsを用いLRMと別の処理として推論の流れに沿った情報を選択・要約してLRMに組み込む有効性を主張している。
  • リポジトリはSearch-o1: Agentic Search-Enhanced Large Reasoning Models

M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs

  • M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.8]
    LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。 M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。 道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 05:18:55 GMT)
  • マルチモーダルなモラルベンチマーク、「Care/Harm (dislike for suffering of others), Fairness/Cheating (proportional fairness, Loyalty/Betrayal (group loyalty), Authority/Subversion (respect for authority and tradition), Sanctity/Degradation (concerns for purity and contamination), Liberty/Oppression (concerns on oppression and coercion)」の6つの道徳的基礎がベース
  • リポジトリはGitHub – BeiiiY/M3oralBench: The official Github page for “M³oralBench: A MultiModal Moral Benchmark for LVLMs”

How Panel Layouts Define Manga: Insights from Visual Ablation Experiments

  • How Panel Layouts Define Manga: Insights from Visual Ablation Experiments [24.4]
    本稿では,マンガ作品の視覚的特徴を,特にパネルレイアウトの特徴に着目して分析することを目的とする。 研究手法として,マンガのページイメージを入力として,マンガタイトル予測のための深層学習モデルをトレーニングした。 具体的には,ページイメージ情報をパネルフレームに限定してアブレーション研究を行い,パネルレイアウトの特性を解析した。
    論文  参考訳(メタデータ)   (Thu, 26 Dec 2024 09:53:37 GMT)
  • マンガのレイアウトの特性分析
  • 「This study used deep learning to explore whether panel page designs in manga vary by work. Our experiments showed that even without characters and text, panel layouts exhibit inherent uniqueness, serving as a key distinguishing feature for manga. This was validated through classification tasks and supported by Grad-CAM visualizations.」はまぁそうだろうと思う。はたしてDeepを使う必要があるのかはやや謎ではあるが。。。