Community Moderation and the New Epistemology of Fact Checking on Social Media

  • Community Moderation and the New Epistemology of Fact Checking on Social Media [124.3]
    ソーシャルメディアプラットフォームは伝統的に、誤解を招くコンテンツを識別しフラグを立てるために、独立した事実チェック組織に依存してきた。 X(元Twitter)とMetaは、クラウドソースのファクトチェックの独自のバージョンを立ち上げて、コミュニティ主導のコンテンツモデレーションに移行した。 主要なプラットフォーム間での誤情報検出の現在のアプローチについて検討し,コミュニティ主導型モデレーションの新たな役割を探求し,大規模クラウドチェックの約束と課題の両方を批判的に評価する。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 14:50:18 GMT)
  • コミュニティで現実に行われているファクトチェック(および類似のチェック)に関する調査・評価

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning 

  • Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.8]
    我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。 提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。 ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 08:54:14 GMT)
  • MLLMに対するPost training、マルチモーダルなLRM化につながる成果

From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

  • From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery [43.3]
    大規模言語モデル(LLM)は科学的発見のパラダイムシフトを触媒している。 この調査は、この急成長する分野を体系的に分析し、科学におけるLLMの役割の変化とエスカレーション能力に重点を置いている。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 15:41:32 GMT)
  • LLMを用いた科学的発見やそのサポートに関するサーベイ。「In scientific dis- covery, this convergence of advanced LLM capa- bilities and agentic functionalities is catalyzing a significant paradigm shift. This shift is poised not only to accelerate the research lifecycle but also to fundamentally alter the collaborative dynamics be- tween human researchers and artificial intelligence in the pursuit of knowledge.」と強力なLLMの登場により現実的になりつつある分野。
  • リポジトリはGitHub – HKUST-KnowComp/Awesome-LLM-Scientific-Discovery: From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery
  • When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [20.0]
    大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。 大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
    論文  参考訳(メタデータ)   (Sat, 17 May 2025 05:45:16 GMT)
  • 別方向から失敗例の分析も面白い。amphora/SPOT-MetaData · Datasets at Hugging Face

Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation 

  • Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.1]
    本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。 本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 11:56:59 GMT)
  • RAGのためのUncertainty Quantification (UQ)手法、FRANQ (Faithfulness-based Retrieval Augmented UNcertainty Quantifica- tion)の提案

MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback

  • MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.3]
    本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。 本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。 実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
    論文  参考訳(メタデータ)   (Fri, 23 May 2025 13:24:50 GMT)
  • 「a systematic framework for experiment-guided hypothesis ranking in chemistry」に対するデータセットの作成と手法の提案。有望そうな結果になっているのがすごい・・・
  • リポジトリはGitHub – wanhaoliu/MOOSE-Chem3

MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models

  • MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models [31.9]
    我々は,大規模言語モデル(LLM)用に設計されたメモリオペレーティングシステムであるMemOSを紹介する。 コアとなるMemCubeは、異種メモリの追跡、融合、マイグレーションを可能にする標準化されたメモリ抽象化である。 MemOSは、強力な制御性、適応性、進化性を備えたメモリ中心の実行フレームワークを確立する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 08:27:12 GMT)
  • LLMのためのメモリ管理フレームワークの提案。「Large Language Models (LLMs) have emerged as foundational infrastructure in the pursuit of Artificial General Intelligence (AGI). Despite their remarkable capabilities in language perception and generation, current LLMs fundamentally lack a unified and structured architecture for handling memory.」はその通りで、記憶の実装はLLMの利用を進める上でとても重要
  • 「MemOS provides a unified abstraction and integrated management framework for heterogeneous memory types, including parametric memory, activation memory, and explicit plaintext memory. We propose a standardized memory unit, MemCube, and implement key modules for scheduling, lifecycle management, structured storage, and transparent augmentation.」と良く設計・実装されたシステムに見えるが、このようなアプローチと(最近あまり聞かない)Deepでポン的なモデルに組み込むアプローチのどちらが有望なのか気になる。

MLLMs are Deeply Affected by Modality Bias

  • MLLMs are Deeply Affected by Modality Bias [158.6]
    MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。 本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
    論文  参考訳(メタデータ)   (Sat, 24 May 2025 11:49:31 GMT)
  • 「Modality bias arises when certain modalities dominate the learning process, while others are underutilized or contribute less effectively」というモダリティバイアスの検証。
  • 「From a model learning perspective, [49] identifies the differing convergence rates of modalities as a core cause of modality bias. The varying levels of difficulty in fitting category labels across different modalities contribute to this disparity.」というのは直観的にもそうだと思いつつ、解消するのは大変そう。「百聞は一見に如かず」とかいうが人間はどうやって対応しているんだろう。

MigrationBench: Repository-Level Code Migration Benchmark from Java

  • MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.6]
    MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java 17、21 ) への移行のための包括的なベンチマークである。 この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。 Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 16:10:21 GMT)
  • バージョン間移植に焦点を当てたベンチマークの提案。実用上大事なタスク。「We demonstrate the feasibility of code migration from Java 8 to 17 through a deterministic workflow with SD-Feedback, and show preliminary results with promising efficacy for both minimal (62.33%) and maximal (27.33%) migration for the selected subset with Claude-3.5-Sonnet-v2.」とのこと。
  • リポジトリはGitHub – amazon-science/MigrationBench

The Real Barrier to LLM Agent Usability is Agentic ROI

  • The Real Barrier to LLM Agent Usability is Agentic ROI [110.3]
    大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。 我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
    論文  参考訳(メタデータ)   (Fri, 23 May 2025 11:40:58 GMT)
  • 「we argue that the key barrier to the practical usability of LLM agents lies not in model capability alone, but in maximizing the value an agent can provide, while minimizing the costs incurred during real-world use.」というごもっとな主張で、それを測るメトリクスとしてAgentic ROIを提案。「The massive user demand and the low Agentic ROI highlight a critical usability gap in everyday, mass-market applications.」はその通りと思う。
  • 色々開発している側としては「In particular, the current generation of LLM agents focuses on specialized, professional tasks such as software development [97] and scientific research [24, 65], where the typical users are already domain experts and occasional errors are acceptable. As a result, these agents remain largely out of reach for the general public, who may lack the necessary expertise.」もその通りで耳が痛い・・・

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

  • The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants [66.7]
    我々は、オープンソースのより小さな言語モデルの集合的インテリジェンスを効果的に活用する簡単なレシピであるAvengersを紹介します。 10のオープンソースモデル(それぞれ7Bパラメータ)により、Avengersは15のデータセットのうち10でGPT-4.1を上回っている。 特に数学タスクでは GPT-4.1 を 18.21% 、コードタスクでは 7.46% で上回っている。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 10:29:42 GMT)
  • 7B × 10のSLMで商用モデルと競合する性能を達成とのこと。「In this paper, we introduce the Avengers, a simple yet effective framework to unite multiple smaller language models (SLMs) and challenge the dominance of proprietary large models. The core of the Avengers involves straightforward embedding, clustering, scoring, and voting, without requiring neural network training, prompt engineering, or careful architecture-specific model choices.」
  • leakというのが頭によぎらなくはないが、近年の公開モデルの性能は大きく向上していてあり得る結果ではあると思う。
  • リポジトリはGitHub – ZhangYiqun018/Avengers