arXiv最新論文の紹介

Implicit In-context Learning

Implicit In-context Learning [37.1]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Implicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (Thu, 23 May 2024 14:57:52 GMT)
ICLを表すベクトル（context vector）を使うことで高速化。できそうではあるがcontext vectorが持つ情報はどのくらいの有効性があるか＆実際のところ何なのかが気になる。
リポジトリはGitHub – LzVv123456/I2CL

STAR: A Benchmark for Situated Reasoning in Real-World Videos

STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.8]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文参考訳（メタデータ） (Wed, 15 May 2024 21:53:54 GMT)
動画を通したinteraction, sequence, prediction, feasibilityのベンチマーク
プロジェクトサイトはSTAR: A Benchmark for Situated Reasoning in Real-World Videos (bobbywu.com)

YOLOv10: Real-Time End-to-End Object Detection

YOLOv10: Real-Time End-to-End Object Detection [68.3]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。 YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文参考訳（メタデータ） (Thu, 23 May 2024 11:44:29 GMT)
YOLO v10、性能が高く低レイテンシ。
リポジトリはGitHub – THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection

Agent Planning with World Knowledge Model

Agent Planning with World Knowledge Model [88.5]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
論文参考訳（メタデータ） (Thu, 23 May 2024 06:03:19 GMT)
World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では４０４

Risks and Opportunities of Open-Source Generative AI

Risks and Opportunities of Open-Source Generative AI [64.7]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文参考訳（メタデータ） (Tue, 14 May 2024 13:37:36 GMT)
活発に開発されているオープンな生成AIについてリスクと意義をまとめた論文、全体としては「We argue that, overall, the benefits of open-source Gen AI outweigh its risks.」
やや長いがよく整理されている論文。

Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った（Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）感じ日本語でもタスクによっては優れた性能を発揮できそう。

xRAG、FlashRAG、HippoRAG

RAG関連の研究はとても盛ん

xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。 xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文参考訳（メタデータ） (Wed, 22 May 2024 16:15:17 GMT)
プロンプトに検索結果を投入する一般的なRAGではなくProjectorとドキュメントを表すトークンを介す方式の新たなRAG手法の提案。モダリティの拡張に近いイメージのよう。
リポジトリはGitHub – Hannibal046/xRAG: Source code for xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token

FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.8]
FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
論文参考訳（メタデータ） (Wed, 22 May 2024 12:12:40 GMT)
RAGに関連する様々な手法が使えるツールキット。ベンチマークデータも整理されているのが素晴らしい
リポジトリはGitHub – RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research

HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models [24.5]
我々は,ヒトの長期記憶の海馬索引付け理論に触発された新しい検索フレームワークであるHippoRAGを紹介する。その結果,本手法は最先端の手法を最大20%向上させることができた。提案手法は,既存の手法に及ばない新たなシナリオに対処することができる。
論文参考訳（メタデータ） (Thu, 23 May 2024 17:47:55 GMT)
海馬を模したRAGとのこと。動作は「Our novel design first models the neocortex’s ability to process perceptual input by using an LLM to transform a corpus into a schemaless knowledge graph (KG) as our artificial hippocampal index.Given a new query, HippoRAG identifies the key concepts in the query and runs the Personalized PageRank (PPR) algorithm [23] on the KG, using the query concepts as the seeds, to integrate information across passages for retrieval. PPR enables HippoRAG to explore KG paths and identify relevant subgraphs, essentially performing multi-hop reasoning in a single retrieval step.」ということでKnowledge Graphをうまく使うアプローチ。
リポジトリはGitHub – OSU-NLP-Group/HippoRAG: HippoRAG is a novel RAG framework inspired by human long-term memory that enables LLMs to continuously integrate knowledge across external documents.

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [45.5]
GenTranslate”は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文参考訳（メタデータ） (Thu, 16 May 2024 13:17:05 GMT)
LLMを用いて複数の訳文候補を組み合わせることで高品質な翻訳をしようという論文。fine tuning用のデータセットHypoTranslate（PeacefulData/HypoTranslate · Datasets at Hugging Face）も公開している。
リポジトリはGitHub – YUCHEN005/GenTranslate: Code for paper “GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators”

MambaOut: Do We Really Need Mamba for Vision?

MambaOut: Do We Really Need Mamba for Vision? [70.6]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねてemphMambaOutという一連のモデルを構築した。
論文参考訳（メタデータ） (Mon, 13 May 2024 17:59:56 GMT)
Mambaの特徴を「Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics.」とし、分類問題には不要であるとし、実証した論文。一方で「the potential of Mamba for visual detection and segmentation tasks, which align with the long-sequence characteristic, merits further exploration.」ともあり、タスクの特徴を踏まえることが重要。

What Can Natural Language Processing Do for Peer Review?

What Can Natural Language Processing Do for Peer Review? [173.9]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文参考訳（メタデータ） (Fri, 10 May 2024 16:06:43 GMT)
LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
リポジトリはGitHub – OAfzal/nlp-for-peer-review

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31