2024年7月9日 – arXiv最新論文の紹介

Fake News Detection: It’s All in the Data!

Fake News Detection: It’s All in the Data! [0.1]
調査では、データセットの重要な特徴、採用されているさまざまなラベルシステム、モデルのパフォーマンスに影響を及ぼす偏見を慎重に概説している。 GitHubリポジトリは、公開可能なデータセットを単一のユーザフレンドリなポータルに統合する。
論文参考訳（メタデータ） (Tue, 02 Jul 2024 10:12:06 GMT)
フェイクニュース検出のためのデータセット
リポジトリはGitHub – fakenewsresearch/dataset

A Survey on Safe Multi-Modal Learning System [10.9]
マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力で注目を集めている。安全に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。
論文参考訳（メタデータ） (Tue, 25 Jun 2024 05:42:43 GMT)
マルチモーダルなシステムに対する安全性のサーベイ
この手の対策が必要になってきたことに進化を感じる

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems [124.8]
我々は、文書のHaystackを合成する手順を設計し、特定のテキストが文書間で繰り返されることを保証します。すると、”Summary of a Haystack”(SummHay)タスクは、Haystackを処理し、クエリ、関連する洞察を特定し、ソースドキュメントを正確に引用する要約を生成するシステムを必要とする。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 15:23:42 GMT)
長文・大量の文書を要約できるかに関する（合成データによる）SummHay ベンチマークを構築、様々なLLM及びRAGを比較した論文。「achieving strong coverage of key insights in a large corpus of text does not require retrieval, given a sufficiently capable long-context LLM.」、「for use-cases where citation quality is important, optimizing retrieval is paramount: it removes irrelevant documents from the summarizer’s context, narrowing and focusing options for citation.」とユースケースによってRAGの有効性が変わるよう。Gemini 1.5 ProはRAGなしでも相当有効に機能しているようなことも興味深い。Retrieveの戦略も複数比較されており参考になる。
リポジトリはGitHub – salesforce/summary-of-a-haystack: Codebase accompanying the Summary of a Haystack paper.