- SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.8]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。 我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文 参考訳(メタデータ) (Tue, 10 Dec 2024 17:35:12 GMT) - 「Our approach augments existing multiview datasets with inconsistencies simulated by a video diffusion model and trains a multiview harmonization model to sample sets of consistent views of a scene conditioned on sparse inconsistent captures. We can then use existing 3D reconstruction and view synthesis techniques to synthesize novel viewpoints from these consistent images.」とのこと。面白いデータ拡張のアプローチでプロジェクトサイトを見るに効果も高いよう。
- プロジェクトサイトはSimVS: Simulating World Inconsistencies for Robust View Synthesis
投稿者: staka
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
- CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 07:03:25 GMT) - MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
- リポジトリはhttps://github.com/QwenLM/CC-OCR
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action
- TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。 推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。 このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (Sat, 07 Dec 2024 00:42:04 GMT) - 「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
- プロジェクトサイトはTACO
From Intention To Implementation: Automating Biomedical Research via LLMs
- From Intention To Implementation: Automating Biomedical Research via LLMs [32.0]
本稿では,バイオメディカル研究プロセス全体を合理化するために設計された,初のエンドツーエンド自動システムであるBioResearcherを紹介する。 複雑なタスクを論理的に関連するサブタスクに分解することで、BioResearcherは多分野要求と論理複雑性の課題を効果的に解決する。 BioResearcherは8つの未測定研究目標に対して平均実行成功率63.07%を達成している。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 16:35:05 GMT) - 「BioResearcher employs a modular multi-agent architecture, integrating specialized agents for search, literature processing, experimental design, and programming.」とのこと。
- 解釈が難しい数値とはいえ、達成率はかなり高い印象。。。
WithdrarXiv: A Large-Scale Dataset for Retraction Study
- WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.8]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。 我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。 重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 23:36:23 GMT) - 撤回された論文を集めた珍しいデータセット
- リポジトリはhttps://github.com/darpa-scify/withdrarxiv
Personalized Multimodal Large Language Models: A Survey
- Personalized Multimodal Large Language Models: A Survey [128.0]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。 本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 03:59:03 GMT) - MLLMのパーソナライズに関するサーベイ。テキスト生成、画像生成、レコメンデーション、検索が対象。
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning
- Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.1]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 我々は,過去の誤りからリアルタイムの誤り訂正と学習を可能にする動的自己補正戦略を導入する。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 09:01:18 GMT) - ToTに似ているが、「By introducing multiple reasoning trees (e g , ToT (Yao et al , 2024) or MCTSr (Zhang et al , 2024)) for independent decision-making and employing sparse activation strategies to filter the results of key trees, we can construct an integrated framework known as the “forest of thought” to enhance the reasoning capability of LLMs」と独立したツリーを束ねるアプローチ
Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models
- Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models [12.9]
データ品質,多様性,複雑性の観点から,各アルゴリズムが生成した合成データの構成によるアルゴリズムの評価を行った。 合成データパイプラインにおける各種成分が各データ特性に与える影響について検討する。 これらのトレードオフのバランスは、将来の自己改善アルゴリズムの開発に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 02:47:45 GMT) - 合成データに関するQuality、Diversity、Complexityからのサーベイ。「Overall, we found that domain specific, attribute measures utilizing LLMs-as-a-judge provide the best measures in complex tasks and domains in terms of correlation with downstream metrics.」という記載が興味深いところ。
Multimodal Latent Language Modeling with Next-Token Diffusion
- Multimodal Latent Language Modeling with Next-Token Diffusion [111.9]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。 因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (Wed, 11 Dec 2024 18:57:32 GMT) - 連続データと離散データをうまく扱うアプローチの提案と有効性検証、連続データをVAEで潜在ベクトルに変換、next-token diffusionで次のベクトルを生成するフレームワーク。
- 効果的に動いていそうでとても興味深い結果。Futureworkにも書かれているように応用範囲が広そう。
Phi4, InternVL 2.5, EXAONE 3.5
Gemini 2.0やOpenAIの12日間発表で盛り上がっているが、OSSや公開モデルについても様々なモデルが発表されている。
- Phi-4 Technical Report [72.1]
本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。 多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 03:37:41 GMT) - 小型、高性能モデルPhiの最新バージョン、「phi-4 strategically incorporates synthetic data throughout the training process.」とのことで合成データをうまく活用するアプローチ。Phi3を超え、GPT-4o miniに迫っている優秀なモデル。
- 公式Blogでも発表がある Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Community Hub
- EXAONE 3.5: Series of Large Language Models for Real-world Use Cases [35.0]
EXAONE 3.5言語モデルは32B、7.8B、2.4Bの3つの構成で提供されている。 商用利用については、LG AI Researchの公式コンタクトポイントを参照してください。
論文 参考訳(メタデータ) (Mon, 09 Dec 2024 09:31:10 GMT) - LGによる公開モデル、同サイズのQwen2.5と競合する性能
- リポジトリはLGAI-EXAONE (LG AI Research)
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [121.1]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。 このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (Fri, 06 Dec 2024 18:57:08 GMT) - OSSのMLLM、性能は商用モデルと競合的とのこと。「we integrate a newly incrementally pre-trained InternViT with various pre-trained LLMs, including InternLM 2.5 and Qwen 2.5, using a randomly initialized MLP projector.」というアーキテクチャでViTをProjectorでLLMとつなぐアプローチ
- リポジトリはOpenGVLab/InternVL2_5-78B · Hugging Face、GitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
- InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.9]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。 このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 18:58:30 GMT) - リアルタイムストリーミングだけでなくメモリ機能なども備えるフレームワーク
- リポジトリはGitHub – InternLM/InternLM-XComposer: InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
- Owl-1: Omni World Model for Consistent Long Video Generation [75.5]
Omni World ModeL (Owl-1) を提案する。 Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 18:59:01 GMT) - 動画生成モデル、リポジトリはGitHub – huang-yh/Owl