SiReRAG: Indexing Similar and Related Information for Multihop Reasoning

  • SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.6]
    SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。 SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 04:56:43 GMT)
  • 類似性によるツリーに加えて関連性(we construct the relatedness tree by clustering the propositions based on their entities to get proposition aggregates and having recursive summaries on top.)のツリーを併用するRAG
  • マルチホップなQAにて高性能とのこと

The BrowserGym Ecosystem for Web Agent Research

Political-LLM: Large Language Models in Political Science

  • Political-LLM: Large Language Models in Political Science [160.0]
    大規模言語モデル(LLM)は、政治科学のタスクで広く採用されている。 政治LLMは、LLMを計算政治科学に統合する包括的な理解を促進することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 08:47:50 GMT)
  • 「In this work, we—a multidisciplinary team of researchers spanning computer science and political science—present the first principled framework termed Political-LLM to advance the comprehensive understanding of integrating LLMs into computational political science.」、「The intended audience of this survey includes (1) computer science researchers and practitioners who seek a structured understanding of how LLMs are applied in political science, aiming to bridge interdisciplinary gaps; and (2) political science researchers and practitioners who seek to leverage LLMs in ways that are sensitive to the unique requirements of their field, such as nuanced interpretation and contextual accuracy [57].」ということで、政治へのLLM応用について調査したサーベイ。政治とあるが社会的なLLMの活用方針についての示唆も多く参考になる点が多い。プロジェクトサイトのライセンスがCC BY-SAであるのはありがたい。
  • プロジェクトサイトはPolitical-LLM: Large Language Models in Political Science

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

  • Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.8]
    Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。 Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 18:58:10 GMT)
  • 動画内のオブジェクトのようなインスタンスレベルでの理解を行うためのベンチマーク、データセットの提案。
  • 筆者らによってFinetuningされたモデルはOSSなものでは高性能だが商用レベルには及んでいない。というのとこれが純粋に難しい問題であることが分かるスコア。
  • リポジトリはInst-IT

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation 

  • Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.2]
    我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。 我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。 実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 18:57:04 GMT)
  • 「This paper introduces Moto, a novel method that uses latent motion tokens as a “language” interface to bridge generative pre-training on video data with precise robot control.」という手法の提案。潜在的な意味というか意図というかをTokenシーケンスにして言語として扱うということ、かつ、それが有効というのは興味深い。
  • プロジェクトサイトはMoto

Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset 

  • Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset [33.2]
    精度とデータ量とのトレードオフを改善する方法を示します。 15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは、Llama 3.1 8Bモデルよりも優れている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 17:28:50 GMT)
  • RedStone同様、Common CrawlをうまくRefineする手法の報告。こちらはNDIVIAによるもの。「We propose a method for transforming English Common Crawl into a 6.3T token longhorizon pretraining dataset, consisting of 4.4T globally deduplicated original tokens and 1.9T synthetically generated tokens.」と合成データについて触れられているのも興味深い。
  • プロジェクトサイトはNemotron-CC

RedStone: Curating General, Code, Math, and QA Data for Large Language Models

  • RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.5]
    本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。 私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 15:27:39 GMT)
  • LLM構築など大規模な事前学習で重要なデータ源となっているCommonCrawlからのデータ構築についての報告と実装。フィルタリングの過程でデータが大幅に削られている。「Our general domain dataset, REDSTONE-Web, outperforms existing open-source datasets in common sense reasoning benchmarks, while the inclusion of REDSTONE-Code and REDSTONE-Math significantly improves model performance in code generation and mathematical problem solving.」とのこと。
  • リポジトリはhttps://github.com/microsoft/redstoneとのことだが、現時点では404

Large Language Model-Brained GUI Agents: A Survey

  • Large Language Model-Brained GUI Agents: A Survey [43.2]
    マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 12:13:39 GMT)
  • GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

  • Establishing Task Scaling Laws via Compute-Efficient Model Ladders [123.8]
    我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。 まず、タスク固有の損失を予測するためにモデルとデータサイズを使用し、次にタスクの損失を使ってタスクパフォーマンスを予測する。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 18:21:49 GMT)
  • 効率よくタスク性能を予測する手法の提案、「With a less than 1% of the pretraining compute, we are able to predict the task performance of 7B-4T and 13B-5T models on individual multiple-choice tasks with good accuracy.」とのこと。

SoK: Watermarking for AI-Generated Content

  • SoK: Watermarking for AI-Generated Content [112.9]
    ウォーターマーキングスキームは、AI生成コンテンツに隠された信号を埋め込んで、信頼性の高い検出を可能にする。 透かしは、誤情報や偽造と戦ってAIの安全性と信頼性を高める上で重要な役割を果たす。 本研究の目的は、研究者が透かし法や応用の進歩を指導し、GenAIの幅広い意味に対処する政策立案者を支援することである。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 16:22:33 GMT)
  • Wartermarkingに関するサーベイ。