A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities

  • A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities [31.2]
    医療におけるEmAIは、アルゴリズム、ロボティクス、バイオメディシンといった多様な分野にまたがる。 医療のためのEmAIの”脳”の概要を包括的に紹介し、認識、アクティベーション、計画、記憶のためのAIアルゴリズムを紹介します。 我々は、技術的な障壁を議論し、倫理的考察を探求し、医療におけるEmAIの将来を前方視する。
    論文  参考訳(メタデータ)   (Mon, 13 Jan 2025 16:35:52 GMT)
  • 医療におけるEmbodiedAIのサーベイ。非常に広範な内容で引用数は800を超える

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents 

  • MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.4]
    この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
    論文  参考訳(メタデータ)   (Wed, 15 Jan 2025 14:30:13 GMT)
  • マルチモーダル、長い文書への検索ベンチマーク、document page-level and layout-level retrievalの2つがあるのが特徴的。
  • リポジトリはMMDocIR (MMDocIR)

RECALL: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles 

  • RECALL: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles [18.1]
    自己参照因果サイクル(RECALL)の概念を紹介する。 これにより、一方向因果関係の制限を回避できる。 RECALLは、私たちがサイクルトークンとして指定したものによって駆動されています。
    論文  参考訳(メタデータ)   (Thu, 23 Jan 2025 09:14:07 GMT)
  • self-referencing causal cycles、RECALL 「a mechanism that enables large language models (LLMs) to bypass the limitations of unidirectional causality, which underlies a phenomenon known as the reversal curse.」の提案。Causal language modelでよくみられるの課題への対応で興味深い。
  • https://github.com/samunaai/remember がリポジトリとのことだが、現状404

Harnessing Large Language Models for Disaster Management: A Survey

  • Harnessing Large Language Models for Disaster Management: A Survey [57.0]
    大規模言語モデル(LLM)は、その例外的な能力で科学研究に革命をもたらし、様々な分野を変革した。 本研究の目的は,災害対策のための高度LLMの開発における専門家コミュニティの指導であり,自然災害に対するレジリエンスを高めることである。
    論文  参考訳(メタデータ)   (Sun, 12 Jan 2025 21:00:50 GMT)
  • 災害へのLLM適用に関するサーベイで、Mitigation、Preparedness、Response、Recoveryの軸で整理

GPS as a Control Signal for Image Generation 

  • GPS as a Control Signal for Image Generation [95.4]
    画像メタデータに含まれるGPSタグは,画像生成に有用な制御信号であることを示す。 私たちはGPSと画像のモデルをトレーニングし、都市内の画像がどのように変化するかの詳細な理解を必要とするタスクにそれらを使用します。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 18:59:46 GMT)
  • 「Our work suggests that GPS coordinates are a useful signal for controllable image generation.」とのこと。直観的には確かに有効そうであるし、コンテキストとして明確な情報を与える場合も多そうに思う。
  • プロジェクトサイトはGPS as a Control Signal for Image Generation

Generative AI for Cel-Animation: A Survey

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

  • Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.9]
    CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。 実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 16:53:26 GMT)
  • 「we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms—Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)—to enable synergistic collaboration.」とのこと。LRMとして構築しているアプローチだが、Agenticに使った場合との性能差をしりたいところ。

PaSa: An LLM Agent for Comprehensive Academic Paper Search 

  • PaSa: An LLM Agent for Comprehensive Academic Paper Search [9.7]
    PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。 合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。 合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
    論文  参考訳(メタデータ)   (Fri, 17 Jan 2025 11:12:28 GMT)
  • 「PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries.」という論文情報を集めてくるエージェント。
  • ベンチマークとしてAutoScholarQueryを構築している点が特徴的なのと、「Although PaSa is trained solely on synthetic data, it achieves remarkable real-world performance.」は少し驚き。

Debate Helps Weak-to-Strong Generalization

  • Debate Helps Weak-to-Strong Generalization [68.7]
    我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。 議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 05:36:13 GMT)
  • 「Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision.」という話で興味深いが、「humans will only be able to weakly supervise superhuman models」という危機感が時期尚早でもなさそうなのが・・・。