xRAG、FlashRAG、HippoRAG

RAG関連の研究はとても盛ん

  • xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7]
    xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。 xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。 実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 22 May 2024 16:15:17 GMT)
  • プロンプトに検索結果を投入する一般的なRAGではなくProjectorとドキュメントを表すトークンを介す方式の新たなRAG手法の提案。モダリティの拡張に近いイメージのよう。
  • リポジトリはGitHub – Hannibal046/xRAG: Source code for xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token
  • FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.8]
    FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。 私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
    論文  参考訳(メタデータ)   (Wed, 22 May 2024 12:12:40 GMT)
  • RAGに関連する様々な手法が使えるツールキット。ベンチマークデータも整理されているのが素晴らしい
  • リポジトリはGitHub – RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research
  • HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models [24.5]
    我々は,ヒトの長期記憶の海馬索引付け理論に触発された新しい検索フレームワークであるHippoRAGを紹介する。 その結果,本手法は最先端の手法を最大20%向上させることができた。 提案手法は,既存の手法に及ばない新たなシナリオに対処することができる。
    論文  参考訳(メタデータ)   (Thu, 23 May 2024 17:47:55 GMT)
  • 海馬を模したRAGとのこと。動作は「Our novel design first models the neocortex’s ability to process perceptual input by using an LLM to transform a corpus into a schemaless knowledge graph (KG) as our artificial hippocampal index.Given a new query, HippoRAG identifies the key concepts in the query and runs the Personalized PageRank (PPR) algorithm [23] on the KG, using the query concepts as the seeds, to integrate information across passages for retrieval. PPR enables HippoRAG to explore KG paths and identify relevant subgraphs, essentially performing multi-hop reasoning in a single retrieval step.」ということでKnowledge Graphをうまく使うアプローチ。
  • リポジトリはGitHub – OSU-NLP-Group/HippoRAG: HippoRAG is a novel RAG framework inspired by human long-term memory that enables LLMs to continuously integrate knowledge across external documents.

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators

MambaOut: Do We Really Need Mamba for Vision? 

  • MambaOut: Do We Really Need Mamba for Vision? [70.6]
    状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。 本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。 我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねてemphMambaOutという一連のモデルを構築した。
    論文  参考訳(メタデータ)   (Mon, 13 May 2024 17:59:56 GMT)
  • Mambaの特徴を「Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics.」とし、分類問題には不要であるとし、実証した論文。一方で「the potential of Mamba for visual detection and segmentation tasks, which align with the long-sequence characteristic, merits further exploration.」ともあり、タスクの特徴を踏まえることが重要。

What Can Natural Language Processing Do for Peer Review? 

  • What Can Natural Language Processing Do for Peer Review? [173.9]
    現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。 ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。 筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
    論文  参考訳(メタデータ)   (Fri, 10 May 2024 16:06:43 GMT)
  • LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
  • リポジトリはGitHub – OAfzal/nlp-for-peer-review

Multimodal Fusion on Low-quality Data: A Comprehensive Survey 

  • Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.2]
    本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。 低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。 この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
    論文  参考訳(メタデータ)   (Sun, 05 May 2024 08:29:35 GMT)
  • multimodal fusion、クロスモーダルを含む低品質データ(ノイジーだったり不均衡だったり)取り扱いのサーベイ

A Comprehensive Survey on Data Augmentation 

  • A Comprehensive Survey on Data Augmentation [55.4]
    データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。 既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。 本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
    論文  参考訳(メタデータ)   (Wed, 15 May 2024 11:58:08 GMT)
  • データ拡張のサーベイ。生成AIを用いた手法も含まれる。

EWOK: Elements of World Knowledge

  • Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.5]
    本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。 次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
    論文  参考訳(メタデータ)   (Wed, 15 May 2024 17:19:42 GMT)
  • LLMの世界の知識(物理的なもの、空間的なもの、社会的なものなど様々なドメインが含まれる)を評価するためのベンチマーク。「Community Standard for Use of Evaluation Data」も面白い。
  • リポジトリはEWoK: Elements of World Knowledge (ewok-core.github.io)

How Far Are We From AGI 

  • How Far Are We From AGI [15.7]
    人工知能(AI)の進化は、人間社会に大きな影響を与え、複数の分野において大きな進歩をもたらした。 しかし、AIに対する増大する要求は、AIの現在の提供の限界を強調し、人工知能(AGI)への動きを触媒している。 AGIは、人間の知能に匹敵する効率と有効性で、さまざまな現実世界のタスクを実行する能力で特徴付けられ、AI進化における最重要マイルストーンを反映している。 本稿では,AGIに近接する重要な課題と,その実現に必要な戦略について,広範な調査,議論,オリジナル視点を通じて考察する。
    論文  参考訳(メタデータ)   (Thu, 16 May 2024 17:59:02 GMT)
  • AGIまでの道のりへの広範なサーベイ、調査対象の論文がGitHub – ulab-uiuc/AGI-surveyに整理されておりそれぞれの構成要素の現状を振り返るうえでも参考になる。

A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode

GPT-4o, Gemini Flash, Falcon-2

先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。

Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind

全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある(GPT-5の発表によって覆される可能性はあるが・・・)

気になっているのはコンテキスト キャッシュ ガイド  |  Google AI for Developers  |  Google for Developersの実装で、中身がSSM&状態を保存するようなものだと革新的(そうじゃないと思うけど)。そうでなくともRAGを終わらせる可能性のある機能として興味深い。

公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face