注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

The Tabular Foundation Model TabPFN Outperforms Specialized Time Series Forecasting Models Based on Simple Features

  • The Tabular Foundation Model TabPFN Outperforms Specialized Time Series Forecasting Models Based on Simple Features [40.2]
    本稿では,TabPFNと単純な特徴工学を組み合わせ,予測性能を高めるための簡単なアプローチであるTabPFN-TSを提案する。 その単純さとわずか1100万のパラメータにもかかわらず、TabPFN-TSは類似サイズのモデルであるChronos-Miniよりも優れており、65倍のパラメータを持つChronos-Largeよりもわずかに優れている。
    論文  参考訳(メタデータ)   (Mon, 06 Jan 2025 11:38:19 GMT)
  • なかなか難しい感のあるTabular Foundation Modelの提案。「By using a simple set of timestampderived features, our approach matches or slightly outperforms Chronos-T5 (Large), which, to our knowledge, is one of the strongest time series foundation models.」とのこと。時系列データの基礎的な動きを捉えられているのかもしれないが、使う場合はそのドメインでの検証はした方が良いのだろうなと思う。
  • リポジトリはGitHub – PriorLabs/tabpfn-client: ⚡ Easy API access to the tabular foundation model TabPFN ⚡

Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

  • Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction [51.5]
    本稿では,製品属性値抽出タスクに対して,エラーベースのプロンプト書き換えと自己補正という2つの自己補正手法を適用した。 実験の結果、どちらの自己補充技術も、異なるシナリオでモデルの性能に限界的な影響しか与えず、処理コストは大幅に増加することがわかった。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 12:55:27 GMT)
  • 「information extraction tasks such as extracting product attribute values from product descriptions」タスクにおいてSelf-refinementやSelf-correctionの効果が薄く、「Overall, fine-tuning without self-refinement proves to be the most effective and cost-efficient approach for scenarios where attribute values need to be extracted from a large number of product descriptions.」との報告。有効なことも多いテクニックなので、タスクによりけりなのかな、という印象。
  • リポジトリはGitHub – wbsg-uni-mannheim/SelfRefinement4ExtractGPT: Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

Test-time Computing: from System-1 Thinking to System-2 Thinking  / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

  • Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
    テストタイムコンピューティングの概念をSystem-1モデルに遡る。 システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
    論文  参考訳(メタデータ)   (Sun, 05 Jan 2025 10:24:20 GMT)
  • test time computing、o1的動作、slow-thinkingといったもののサーベイ。
  • 凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
  • リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs
  • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
    我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。 本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 18:42:48 GMT)
  • 上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。

下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。

  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

  • Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3]
    Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。 セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。 本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
    論文  参考訳(メタデータ)   (Tue, 07 Jan 2025 18:58:54 GMT)
  • 「By leveraging the knowledge from both LLaVA and SAM-2, our model has strong capabilities in both mask and language generation.」とのこと。なるほど、という感じ。
  • リポジトリはSa2VA

LLM4SR: A Survey on Large Language Models for Scientific Research

  • LLM4SR: A Survey on Large Language Models for Scientific Research [15.5]
    大きな言語モデル(LLM)は、研究サイクルの様々な段階にわたって前例のないサポートを提供する。 本稿では,LLMが科学的研究プロセスにどのように革命をもたらすのかを探求する,最初の体系的な調査について述べる。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 06:44:02 GMT)
  • LLM、特にAgenticな動作が流行って以降、実用性がでてきている感のある研究へのLLM利用に関するサーベイ。仮説を作るところからピアレビューまで一連のプロセスを対象にしている。

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model 

  • Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.2]
    多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。 異なる言語群に対する学習がいかに異なるかを検討する。 私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 10:26:14 GMT)
  • Large Vision-Language Modelにおける多言語化の検証、英語のパフォーマンスを低下させることなく対応可能な言語数などに焦点を当てている。「our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding.」は興味深い結果。LLaVAアーキテクチャ、2.8BのPhi3.5、Llama 3 8Bでの検証。
  • その後、「After benchmarking different 7-9B parameter LLMs, we find that Aya-Expanse and Qwen 2.5 give the overall best results.」の結果、Aya-ExpanseとQwen 2.5を用いてモデル構築を行っている。
  • リポジトリはCenturio: On Drivers of Multilingual Ability of Large Vision-Language Model

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

  • VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [104.4]
    視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。 提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。 画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
    論文  参考訳(メタデータ)   (Fri, 03 Jan 2025 18:59:52 GMT)
  • VisionとSpeechに対応したマルチモーダルな対話モデル構築のため、3段階での学習方法を提案。「The input side consists of vision and audio encoders, along with their adapters connected to a LLM. The output side has an end-to-end speech generation module, rather than directly using an external TTS model as the initial VITA-1.0 version」というアーキテクチャ。性能は公開モデルや商用モデルと競合するレベル。
  • リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Long Context vs. RAG for LLMs: An Evaluation and Revisits 

  • Long Context vs. RAG for LLMs: An Evaluation and Revisits [41.3]
    本稿は、このトピックに関する最近の研究を再考し、その重要な洞察と相違点を明らかにする。 LCは、特にウィキペディアベースの質問に対して、質問応答ベンチマークにおいてRAGよりも優れていた。 また,既存の研究における文脈関連性の重要性を概観する,詳細な議論もおこなう。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 14:34:37 GMT)
  • Revisiting In-Context Learning with Long Context Language Models  – arXiv最新論文の紹介に近いが、Long Context vs RAGの検証。「The results indicate that LC generally outperforms RAG for tasks involving wellstructured, dense contexts—such as Wikipedia articles and books—and is better at answering questions requiring specific information. By contrast, RAG demonstrates advantages in handling fragmented information, particularly in dialogue-based scenarios and for more general questions.」と一長一短。
  • これでOKと断言しにくい結果ではあるが、幅広い検証がとても参考になる。
  • リポジトリはGitHub – lixinze777/LC_VS_RAG: Offcial Page for Long Context vs. RAG for LLMs: An Evaluation and Revisits

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM 

  • Virgo: A Preliminary Exploration on Reproducing o1-like MLLM [89.5]
    スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。 マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。 本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。 自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
    論文  参考訳(メタデータ)   (Fri, 03 Jan 2025 17:14:16 GMT)
  • o1-likeな推論に時間をかけるアプローチがMLLMにおいても有効であるとの報告。それはそうなんだろうと思うが、猛追という感じ。
  • リポジトリはGitHub – RUCAIBox/Virgo: Official code of *Virgo: A Preliminary Exploration on Reproducing o1-like MLLM*

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking 

  • rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking [15.4]
    本稿では,小型言語モデル (SLM) が OpenAI o1 の算術的推論能力に匹敵するか,超越するかを示すために rStar-Math を提案する。 我々はモンテカルロ木探索(MCTS)を通して「深層思考」を実践し,SLMに基づくプロセス報酬モデルによるテスト時間探索を行う。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 14:12:57 GMT)
  • 「In this work, we present rStar-Math, a self-evolved System 2 deep thinking approach that significantly boosts the math reasoning capabilities of small LLMs, achieving state-of-the-art OpenAI o1-level performance.」と流行りのアプローチ、self-evolvedという表現に未来を感じるとともに、比較的小規模なモデルでも高いスコアをとれていることが興味深い
  • リポジトリはhttps://github.com/microsoft/rStar。現時点では404?