arXiv – ページ 100 – arXiv最新論文の紹介

RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.8]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。 5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文参考訳（メタデータ） (Mon, 16 Dec 2024 16:03:25 GMT)
検索と生成をシームレスにつなぐフレームワークの提案、
リポジトリはGitHub – sunnynexus/RetroLLM: RetroLLM: Empowering LLMs to Retrieve Fine-grained Evidence within Generation

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.1]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文参考訳（メタデータ） (Mon, 09 Dec 2024 18:58:03 GMT)
プロジェクトサイトはDriv3R、リポジトリはGitHub – Barrybarry-Smith/Driv3R: Official Implementation of Driv3R

Mixture of Hidden-Dimensions Transformer

Mixture of Hidden-Dimensions Transformer [50.4]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文参考訳（メタデータ） (Sat, 07 Dec 2024 13:15:22 GMT)
最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと

A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios

A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios [44.0]
ゲーム理論のシナリオは、Large Language Model(LLM)ベースのソーシャルエージェントの社会的インテリジェンスを評価する上で重要なものとなっている。本調査では,研究成果をゲームフレームワーク,ソーシャルエージェント,評価プロトコルの3つのコアコンポーネントにまとめる。
論文参考訳（メタデータ） (Thu, 05 Dec 2024 06:46:46 GMT)
ゲーム理論な文脈でのLLM based Agentsのサーベイ。

SimVS: Simulating World Inconsistencies for Robust View Synthesis

SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.8]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文参考訳（メタデータ） (Tue, 10 Dec 2024 17:35:12 GMT)
「Our approach augments existing multiview datasets with inconsistencies simulated by a video diffusion model and trains a multiview harmonization model to sample sets of consistent views of a scene conditioned on sparse inconsistent captures. We can then use existing 3D reconstruction and view synthesis techniques to synthesize novel viewpoints from these consistent images.」とのこと。面白いデータ拡張のアプローチでプロジェクトサイトを見るに効果も高いよう。
プロジェクトサイトはSimVS: Simulating World Inconsistencies for Robust View Synthesis

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
論文参考訳（メタデータ） (Tue, 03 Dec 2024 07:03:25 GMT)
MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
リポジトリはhttps://github.com/QwenLM/CC-OCR

TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文参考訳（メタデータ） (Sat, 07 Dec 2024 00:42:04 GMT)
「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
プロジェクトサイトはTACO

From Intention To Implementation: Automating Biomedical Research via LLMs

From Intention To Implementation: Automating Biomedical Research via LLMs [32.0]
本稿では,バイオメディカル研究プロセス全体を合理化するために設計された,初のエンドツーエンド自動システムであるBioResearcherを紹介する。複雑なタスクを論理的に関連するサブタスクに分解することで、BioResearcherは多分野要求と論理複雑性の課題を効果的に解決する。 BioResearcherは8つの未測定研究目標に対して平均実行成功率63.07%を達成している。
論文参考訳（メタデータ） (Thu, 12 Dec 2024 16:35:05 GMT)
「BioResearcher employs a modular multi-agent architecture, integrating specialized agents for search, literature processing, experimental design, and programming.」とのこと。
解釈が難しい数値とはいえ、達成率はかなり高い印象。。。

WithdrarXiv: A Large-Scale Dataset for Retraction Study

WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.8]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。重み付き平均F1スコアは0.96である。
論文参考訳（メタデータ） (Wed, 04 Dec 2024 23:36:23 GMT)
撤回された論文を集めた珍しいデータセット
リポジトリはhttps://github.com/darpa-scify/withdrarxiv

Personalized Multimodal Large Language Models: A Survey

Personalized Multimodal Large Language Models: A Survey [128.0]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (Tue, 03 Dec 2024 03:59:03 GMT)
MLLMのパーソナライズに関するサーベイ。テキスト生成、画像生成、レコメンデーション、検索が対象。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31