コンテンツへスキップ
- Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey [6.7]
VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の交差点において、トランスフォーメーション技術として登場した。 VLMは、視覚的およびテキスト的データに対して強力な推論と理解能力を示し、ゼロショット分類において古典的な単一モダリティ視覚モデルを上回る。
論文 参考訳(メタデータ) (Sat, 04 Jan 2025 04:59:33 GMT)
- 「we provide a systematic overview of VLMs in the following aspects: [1] model information of the major VLMs developed over the past five years (2019-2024); [2] the main architectures and training methods of these VLMs; [3] summary and categorization of the popular benchmarks and evaluation metrics of VLMs; [4] the applications of VLMs including embodied agents, robotics, and video generation; [5] the challenges and issues faced by current VLMs such as hallucination, fairness, and safety.」とVLMのサーベイ。
- リポジトリはGitHub – zli12321/VLM-surveys: A most Frontend Collection and survey of vision-language model papers, and models GitHub repository
- Open Problems in Machine Unlearning for AI Safety [61.4]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。 本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文 参考訳(メタデータ) (Thu, 09 Jan 2025 03:59:10 GMT)
- 重要技術ではあるが実用化に至っていない雰囲気のあるMachine unlearningに関するサーベイ。主に課題面にフォーカスしている。
- 結論の「Current approaches to neural-level interventions often produce unintended effects on broader model capabilities, adding practical challenges to selective capability control, while the difficulty of verifying unlearning success and robustness against relearning raises additional concerns. Furthermore, unlearning interventions can create tensions with existing safety mechanisms, potentially affecting their reliability.」は現状を端的に表している。。。
- Towards Best Practices for Open Datasets for LLM Training [21.4]
多くのAI企業は、著作権所有者の許可なく、データ上で大きな言語モデル(LLM)をトレーニングしています。 創造的なプロデューサーは、いくつかの著名な著作権訴訟を引き起こした。 データ情報を制限するこの傾向は、透明性、説明責任、革新を妨げることによって害をもたらす。
論文 参考訳(メタデータ) (Tue, 14 Jan 2025 17:18:05 GMT)
- 学習等に使用するデータセットを選ぶベストプラクティスの整理、「The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous.」とはあるが日本でもとても大事な内容。
- BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery [24.6]
実験的な設計とモデル発見を評価するための10環境のベンチマークであるBoxingGymを紹介する。 予測情報ゲイン(EIG)は,実験が生成モデルのパラメータの不確実性をどの程度低減するかを測定する情報理論量である。 GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
論文 参考訳(メタデータ) (Thu, 02 Jan 2025 21:15:57 GMT)
- LLMによる実験計画・モデル発見のベンチマーク
- リポジトリはGitHub – kanishkg/boxing-gym at v0.1.0-beta
- GameFactory: Creating New Games with Generative Interactive Videos [33.0]
本稿では,ゲームビデオ生成におけるシーンの一般化を探求するフレームワークであるGameFactoryを紹介する。 オープンドメインの一般化を保ちつつ,アクション制御からゲームスタイルの学習を分離する多段階学習戦略を提案する。 フレームワークを拡張して、自動回帰アクション制御可能なゲームビデオ生成を可能にし、無制限のインタラクティブなゲームビデオの作成を可能にします。
論文 参考訳(メタデータ) (Tue, 14 Jan 2025 18:57:21 GMT)
- 「By learning action control from a small-scale first-person Minecraft dataset, this framework can transfer these control abilities to open-domain videos, ultimately allowing the creation of new games within open-domain scenes.」というフレームワーク提案。移動などの操作を反映した動画生成ができるのは面白いのと、これが転送可能ということはある程度モデルの中にその知識がありそうでそちらも興味深い。
- リポジトリはGameFactory
- Finding the Trigger: Causal Abductive Reasoning on Video Events [59.2]
Causal Abductive Reasoning on Video Events (CARVE)は、ビデオ内のイベント間の因果関係を特定する。 本稿では、時間空間と意味空間における映像イベントの関係を調査する因果イベント関係ネットワーク(CERN)を提案する。
論文 参考訳(メタデータ) (Thu, 16 Jan 2025 05:39:28 GMT)
- ビデオ内のイベントとその因果関係を特定、対象イベントの発生を説明する因果連鎖の仮説を生成するタスクCausal Abductive Reasoning on Video Events (CARVE)、データ作成及びそれを解くための Causal Event Relation Network (CERN)を提案。
- 実用上重要ではあるが難しそうなタスク
- Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.0]
我々の目的は、連続手話から音声言語テキストへの翻訳である。 署名ビデオと追加のコンテキストキューを組み込む。 文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (Thu, 16 Jan 2025 18:59:03 GMT)
- 「(i) we propose a new LLM-based model that integrates visual signing and text features with contextual information, including video background descriptions and previous sentence translations;」というようにコンテキスト情報を活用した手話への機械翻訳アプローチの提案
- リポジトリはLost in Translation, Found in Context
- LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。 マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。 第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。 第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (Fri, 10 Jan 2025 18:59:51 GMT)
- マルチステップなVisual reasoningタスクのベンチマークVisual Reasoning-Chain (VRCBench)の提案とcurriculum learningを通してLlama-3.2-11B-Vision-Instruct を強化したモデルの構築。omkarthawakar/LlamaV-o1 · Hugging Face
- 商用モデルに近い性能を発揮。
- プロジェクトサイトはLlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
- Enabling Scalable Oversight via Self-Evolving Critic [59.9]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (Fri, 10 Jan 2025 05:51:52 GMT)
- SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
- Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと