Finding the Trigger: Causal Abductive Reasoning on Video Events 

  • Finding the Trigger: Causal Abductive Reasoning on Video Events [59.2]
    Causal Abductive Reasoning on Video Events (CARVE)は、ビデオ内のイベント間の因果関係を特定する。 本稿では、時間空間と意味空間における映像イベントの関係を調査する因果イベント関係ネットワーク(CERN)を提案する。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 05:39:28 GMT)
  • ビデオ内のイベントとその因果関係を特定、対象イベントの発生を説明する因果連鎖の仮説を生成するタスクCausal Abductive Reasoning on Video Events (CARVE)、データ作成及びそれを解くための Causal Event Relation Network (CERN)を提案。
  • 実用上重要ではあるが難しそうなタスク

Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues

  • Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.0]
    我々の目的は、連続手話から音声言語テキストへの翻訳である。 署名ビデオと追加のコンテキストキューを組み込む。 文脈的アプローチが翻訳の質を著しく向上させることを示す。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 18:59:03 GMT)
  • 「(i) we propose a new LLM-based model that integrates visual signing and text features with contextual information, including video background descriptions and previous sentence translations;」というようにコンテキスト情報を活用した手話への機械翻訳アプローチの提案
  • リポジトリはLost in Translation, Found in Context

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs 

  • LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0]
    大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。 マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。 第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。 第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 18:59:51 GMT)
  • マルチステップなVisual reasoningタスクのベンチマークVisual Reasoning-Chain (VRCBench)の提案とcurriculum learningを通してLlama-3.2-11B-Vision-Instruct を強化したモデルの構築。omkarthawakar/LlamaV-o1 · Hugging Face
  • 商用モデルに近い性能を発揮。
  • プロジェクトサイトはLlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Enabling Scalable Oversight via Self-Evolving Critic

  • Enabling Scalable Oversight via Self-Evolving Critic [59.9]
    SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 05:51:52 GMT)
  • SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
  • Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと