Harnessing Large Language Models for Disaster Management: A Survey

  • Harnessing Large Language Models for Disaster Management: A Survey [57.0]
    大規模言語モデル(LLM)は、その例外的な能力で科学研究に革命をもたらし、様々な分野を変革した。 本研究の目的は,災害対策のための高度LLMの開発における専門家コミュニティの指導であり,自然災害に対するレジリエンスを高めることである。
    論文  参考訳(メタデータ)   (Sun, 12 Jan 2025 21:00:50 GMT)
  • 災害へのLLM適用に関するサーベイで、Mitigation、Preparedness、Response、Recoveryの軸で整理

GPS as a Control Signal for Image Generation 

  • GPS as a Control Signal for Image Generation [95.4]
    画像メタデータに含まれるGPSタグは,画像生成に有用な制御信号であることを示す。 私たちはGPSと画像のモデルをトレーニングし、都市内の画像がどのように変化するかの詳細な理解を必要とするタスクにそれらを使用します。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 18:59:46 GMT)
  • 「Our work suggests that GPS coordinates are a useful signal for controllable image generation.」とのこと。直観的には確かに有効そうであるし、コンテキストとして明確な情報を与える場合も多そうに思う。
  • プロジェクトサイトはGPS as a Control Signal for Image Generation

Generative AI for Cel-Animation: A Survey

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

  • Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.9]
    CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。 実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 16:53:26 GMT)
  • 「we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms—Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)—to enable synergistic collaboration.」とのこと。LRMとして構築しているアプローチだが、Agenticに使った場合との性能差をしりたいところ。

PaSa: An LLM Agent for Comprehensive Academic Paper Search 

  • PaSa: An LLM Agent for Comprehensive Academic Paper Search [9.7]
    PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。 合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。 合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
    論文  参考訳(メタデータ)   (Fri, 17 Jan 2025 11:12:28 GMT)
  • 「PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries.」という論文情報を集めてくるエージェント。
  • ベンチマークとしてAutoScholarQueryを構築している点が特徴的なのと、「Although PaSa is trained solely on synthetic data, it achieves remarkable real-world performance.」は少し驚き。

Debate Helps Weak-to-Strong Generalization

  • Debate Helps Weak-to-Strong Generalization [68.7]
    我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。 議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 05:36:13 GMT)
  • 「Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision.」という話で興味深いが、「humans will only be able to weakly supervise superhuman models」という危機感が時期尚早でもなさそうなのが・・・。

Deepseek R1、Sky-T1、TinyZero、Kimi k1.5

先週も大きなニュースが多かった。特にDeepSeek R1は非常に高い性能のLarge Reasoning Modelであり、しかも、オープンなモデルであることが衝撃的だった。Deepseek R1 Zeroは強化学習によって性能を上げていることも特徴的である。Kimi k1.5も近い発想で構築されたモデルで強化学習の有効性を示しているように見える。

DeepSeek R1の過程で構築したデータを用いQwenやLlamaを強化したモデルも大きく性能を上げているのが驚き。蒸留が許可されているライセンスであり、合成データを構築する元モデルとしても有力そう。

o1ライクなオープンモデルとしてはSky-T1: Train your own O1 preview model within $450GitHub – Jiayi-Pan/TinyZeroXユーザーのJiayi Panさん: 「We reproduced DeepSeek R1-Zero in the CountDown game, and it just works Through RL, the 3B base LM develops self-verification and search abilities all on its own You can experience the Ahah moment yourself for < $30 Code: https://t.co/B2IsN1PrXV Here’s what we learned 🧵 https://t.co/43BVYMmS8X」 / X)も興味深い。

それ以外にもOpenAI Operator(Introducing Operator research preview | OpenAI)はGUIエージェントの萌芽を感じさせる。

オープンモデルの盛り上がりの中、OpenAIがLLMコアだけではなく周辺領域に手を出そうとしているようにも見えて面白い。

  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.2]
    第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 15:19:35 GMT)
  • Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2]
    我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。 長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。 本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 02:48:14 GMT)

Generative Retrieval for Book search

  • Generative Retrieval for Book search [106.7]
    書籍検索のための効率的な生成検索フレームワークを提案する。 データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。 プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 12:57:13 GMT)
  • 「We have introduced and evaluated GBS, a generative retrieval framework designed specifically for book search.」とある通り、業務に特化された検索フレームワークで問題の分割方針と取り扱いの方針が勉強になる。
  • この論文の図1は「Books mainly consist of three types of information: (1) metadata, which includes details like the title, author, and publisher; (2) the main text, which constitutes the core content of the book; and (3) the outline, which shows the hierarchical structure and relationships between the chapters and sections.」であるが、対象をどう見るかというのはLLM全盛の今においても、非常に重要。

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

  • Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1]
    大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。 最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 17:37:58 GMT)
  • OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
  • 下記でも思ったが本当に進展が速い
  • O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8]
    この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
    論文  参考訳(メタデータ)   (Sat, 11 Jan 2025 07:10:23 GMT)
  • プロジェクトサイトはGitHub – SPIRAL-MED/Ophiuchus