staka – ページ 49 – arXiv最新論文の紹介

Agent Planning with World Knowledge Model

Agent Planning with World Knowledge Model [88.5]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
論文参考訳（メタデータ） (Thu, 23 May 2024 06:03:19 GMT)
World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では４０４

Risks and Opportunities of Open-Source Generative AI

Risks and Opportunities of Open-Source Generative AI [64.7]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文参考訳（メタデータ） (Tue, 14 May 2024 13:37:36 GMT)
活発に開発されているオープンな生成AIについてリスクと意義をまとめた論文、全体としては「We argue that, overall, the benefits of open-source Gen AI outweigh its risks.」
やや長いがよく整理されている論文。

Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った（Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）感じ日本語でもタスクによっては優れた性能を発揮できそう。

xRAG、FlashRAG、HippoRAG

RAG関連の研究はとても盛ん

xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。 xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文参考訳（メタデータ） (Wed, 22 May 2024 16:15:17 GMT)
プロンプトに検索結果を投入する一般的なRAGではなくProjectorとドキュメントを表すトークンを介す方式の新たなRAG手法の提案。モダリティの拡張に近いイメージのよう。
リポジトリはGitHub – Hannibal046/xRAG: Source code for xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token

FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.8]
FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
論文参考訳（メタデータ） (Wed, 22 May 2024 12:12:40 GMT)
RAGに関連する様々な手法が使えるツールキット。ベンチマークデータも整理されているのが素晴らしい
リポジトリはGitHub – RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research

HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models [24.5]
我々は,ヒトの長期記憶の海馬索引付け理論に触発された新しい検索フレームワークであるHippoRAGを紹介する。その結果,本手法は最先端の手法を最大20%向上させることができた。提案手法は,既存の手法に及ばない新たなシナリオに対処することができる。
論文参考訳（メタデータ） (Thu, 23 May 2024 17:47:55 GMT)
海馬を模したRAGとのこと。動作は「Our novel design first models the neocortex’s ability to process perceptual input by using an LLM to transform a corpus into a schemaless knowledge graph (KG) as our artificial hippocampal index.Given a new query, HippoRAG identifies the key concepts in the query and runs the Personalized PageRank (PPR) algorithm [23] on the KG, using the query concepts as the seeds, to integrate information across passages for retrieval. PPR enables HippoRAG to explore KG paths and identify relevant subgraphs, essentially performing multi-hop reasoning in a single retrieval step.」ということでKnowledge Graphをうまく使うアプローチ。
リポジトリはGitHub – OSU-NLP-Group/HippoRAG: HippoRAG is a novel RAG framework inspired by human long-term memory that enables LLMs to continuously integrate knowledge across external documents.

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [45.5]
GenTranslate”は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文参考訳（メタデータ） (Thu, 16 May 2024 13:17:05 GMT)
LLMを用いて複数の訳文候補を組み合わせることで高品質な翻訳をしようという論文。fine tuning用のデータセットHypoTranslate（PeacefulData/HypoTranslate · Datasets at Hugging Face）も公開している。
リポジトリはGitHub – YUCHEN005/GenTranslate: Code for paper “GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators”

MambaOut: Do We Really Need Mamba for Vision?

MambaOut: Do We Really Need Mamba for Vision? [70.6]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねてemphMambaOutという一連のモデルを構築した。
論文参考訳（メタデータ） (Mon, 13 May 2024 17:59:56 GMT)
Mambaの特徴を「Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics.」とし、分類問題には不要であるとし、実証した論文。一方で「the potential of Mamba for visual detection and segmentation tasks, which align with the long-sequence characteristic, merits further exploration.」ともあり、タスクの特徴を踏まえることが重要。

What Can Natural Language Processing Do for Peer Review?

What Can Natural Language Processing Do for Peer Review? [173.9]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文参考訳（メタデータ） (Fri, 10 May 2024 16:06:43 GMT)
LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
リポジトリはGitHub – OAfzal/nlp-for-peer-review

Multimodal Fusion on Low-quality Data: A Comprehensive Survey

Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.2]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文参考訳（メタデータ） (Sun, 05 May 2024 08:29:35 GMT)
multimodal fusion、クロスモーダルを含む低品質データ（ノイジーだったり不均衡だったり）取り扱いのサーベイ

A Comprehensive Survey on Data Augmentation

A Comprehensive Survey on Data Augmentation [55.4]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (Wed, 15 May 2024 11:58:08 GMT)
データ拡張のサーベイ。生成AIを用いた手法も含まれる。

EWOK: Elements of World Knowledge

Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.5]
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
論文参考訳（メタデータ） (Wed, 15 May 2024 17:19:42 GMT)
LLMの世界の知識（物理的なもの、空間的なもの、社会的なものなど様々なドメインが含まれる）を評価するためのベンチマーク。「Community Standard for Use of Evaluation Data」も面白い。
リポジトリはEWoK: Elements of World Knowledge (ewok-core.github.io)

2025年1月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31