注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

  • Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.1]
    マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。 我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 18:58:03 GMT)
  • プロジェクトサイトはDriv3R、リポジトリはGitHub – Barrybarry-Smith/Driv3R: Official Implementation of Driv3R

Mixture of Hidden-Dimensions Transformer 

  • Mixture of Hidden-Dimensions Transformer [50.4]
    隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。 スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
    論文  参考訳(メタデータ)   (Sat, 07 Dec 2024 13:15:22 GMT)
  • 最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
  • 「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと

A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios

  • A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios [44.0]
    ゲーム理論のシナリオは、Large Language Model(LLM)ベースのソーシャルエージェントの社会的インテリジェンスを評価する上で重要なものとなっている。 本調査では,研究成果をゲームフレームワーク,ソーシャルエージェント,評価プロトコルの3つのコアコンポーネントにまとめる。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 06:46:46 GMT)
  • ゲーム理論な文脈でのLLM based Agentsのサーベイ。

SimVS: Simulating World Inconsistencies for Robust View Synthesis 

  • SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.8]
    本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。 我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
    論文  参考訳(メタデータ)   (Tue, 10 Dec 2024 17:35:12 GMT)
  • 「Our approach augments existing multiview datasets with inconsistencies simulated by a video diffusion model and trains a multiview harmonization model to sample sets of consistent views of a scene conditioned on sparse inconsistent captures. We can then use existing 3D reconstruction and view synthesis techniques to synthesize novel viewpoints from these consistent images.」とのこと。面白いデータ拡張のアプローチでプロジェクトサイトを見るに効果も高いよう。
  • プロジェクトサイトはSimVS: Simulating World Inconsistencies for Robust View Synthesis

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

  • CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
    CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 07:03:25 GMT)
  • MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
  • リポジトリはhttps://github.com/QwenLM/CC-OCR

TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

  • TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
    複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。 推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。 このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
    論文  参考訳(メタデータ)   (Sat, 07 Dec 2024 00:42:04 GMT)
  • 「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
  • プロジェクトサイトはTACO

From Intention To Implementation: Automating Biomedical Research via LLMs 

  • From Intention To Implementation: Automating Biomedical Research via LLMs [32.0]
    本稿では,バイオメディカル研究プロセス全体を合理化するために設計された,初のエンドツーエンド自動システムであるBioResearcherを紹介する。 複雑なタスクを論理的に関連するサブタスクに分解することで、BioResearcherは多分野要求と論理複雑性の課題を効果的に解決する。 BioResearcherは8つの未測定研究目標に対して平均実行成功率63.07%を達成している。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 16:35:05 GMT)
  • 「BioResearcher employs a modular multi-agent architecture, integrating specialized agents for search, literature processing, experimental design, and programming.」とのこと。
  • 解釈が難しい数値とはいえ、達成率はかなり高い印象。。。

WithdrarXiv: A Large-Scale Dataset for Retraction Study 

  • WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.8]
    本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。 我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。 重み付き平均F1スコアは0.96である。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 23:36:23 GMT)
  • 撤回された論文を集めた珍しいデータセット
  • リポジトリはhttps://github.com/darpa-scify/withdrarxiv

Personalized Multimodal Large Language Models: A Survey

  • Personalized Multimodal Large Language Models: A Survey [128.0]
    マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。 本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 03:59:03 GMT)
  • MLLMのパーソナライズに関するサーベイ。テキスト生成、画像生成、レコメンデーション、検索が対象。

Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning

  • Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.1]
    我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 我々は,過去の誤りからリアルタイムの誤り訂正と学習を可能にする動的自己補正戦略を導入する。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 09:01:18 GMT)
  • ToTに似ているが、「By introducing multiple reasoning trees (e g , ToT (Yao et al , 2024) or MCTSr (Zhang et al , 2024)) for independent decision-making and employing sparse activation strategies to filter the results of key trees, we can construct an integrated framework known as the “forest of thought” to enhance the reasoning capability of LLMs」と独立したツリーを束ねるアプローチ