コンテンツへスキップ
- Quantitative LLM Judges [48.7]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。 モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。 実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (Tue, 03 Jun 2025 14:44:23 GMT)
- 「We introduce quantitative judges, a family of LLM judges that disentangle qualitative reasoning from quantitative score prediction in LLM-as-a-judge. Our approach has two stages: the qualitative stage, where a frozen LLM judge generates an evaluation, and the quantitative stage, where these outputs are used by a lightweight model to predict a human score.」というアプローチによる定量評価
- 現実的な設計方針に思える。
- How much do language models memorize? [104.2]
我々は記憶を2つの構成要素に分けている:「文体記憶」と「文体一般化」である。 一般化を完全に排除すると、モデルキャパシティを見積もるトータル・メモリ化を計算することができる。 サイズが大きくなるデータセット上で言語モデルをトレーニングし、キャパシティが満たされるまでモデルを記憶し、その時点での「グルーキング」が始まり、モデルが一般化し始めるにつれて意図しない記憶が減少するのを観察する。
論文 参考訳(メタデータ) (Fri, 30 May 2025 17:34:03 GMT)
- AGIを目指すうえでとても重要な記憶に関する報告、「We formally separate memorization into two components: unintended memorization, the information a model contains about a specific dataset, and generalization, the information a model contains about the true data-generation process. When we completely eliminate generalization, we can compute the total memorization, which provides an estimate of model capacity: our measurements estimate that GPT-style models have a capacity of approximately 3.6 bits per parameter.」とのこと。
- 引用されているが、Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws – arXiv最新論文の紹介など、この手の研究は本当に興味深い。
- The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets [12.1]
消費者と商店双方がAIエージェントを承認し、交渉と取引を完全に自動化する将来のシナリオについて検討する。 我々の発見によると、AIによる取引は本質的に不均衡なゲームであり、異なるエージェントがユーザーに対して著しく異なる結果をもたらす。 ユーザーはAIエージェントにビジネス上の決定を委譲する際に注意を払わなければならない。
論文 参考訳(メタデータ) (Thu, 29 May 2025 17:41:39 GMT)
- AI vs AIな検証。「In this paper, we designed an experimental framework to investigate potential issues and risks in Agent-to-Agent negotiations and transactions. Our analysis reveals that Agent-to-Agent negotiation and transaction is naturally an imbalanced game where users using less capable agents will face significant financial loss against stronger agents.」は予想されていることではあるが論文でも指摘されている通り格差拡大を招きかねない結果。
- リポジトリはGitHub – ShenzheZhu/A2A-NT: Official code of “The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets”
- Community Moderation and the New Epistemology of Fact Checking on Social Media [124.3]
ソーシャルメディアプラットフォームは伝統的に、誤解を招くコンテンツを識別しフラグを立てるために、独立した事実チェック組織に依存してきた。 X(元Twitter)とMetaは、クラウドソースのファクトチェックの独自のバージョンを立ち上げて、コミュニティ主導のコンテンツモデレーションに移行した。 主要なプラットフォーム間での誤情報検出の現在のアプローチについて検討し,コミュニティ主導型モデレーションの新たな役割を探求し,大規模クラウドチェックの約束と課題の両方を批判的に評価する。
論文 参考訳(メタデータ) (Mon, 26 May 2025 14:50:18 GMT)
- コミュニティで現実に行われているファクトチェック(および類似のチェック)に関する調査・評価
- Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.8]
我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。 提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。 ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
論文 参考訳(メタデータ) (Mon, 26 May 2025 08:54:14 GMT)
- MLLMに対するPost training、マルチモーダルなLRM化につながる成果
- From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery [43.3]
大規模言語モデル(LLM)は科学的発見のパラダイムシフトを触媒している。 この調査は、この急成長する分野を体系的に分析し、科学におけるLLMの役割の変化とエスカレーション能力に重点を置いている。
論文 参考訳(メタデータ) (Mon, 19 May 2025 15:41:32 GMT)
- LLMを用いた科学的発見やそのサポートに関するサーベイ。「In scientific dis- covery, this convergence of advanced LLM capa- bilities and agentic functionalities is catalyzing a significant paradigm shift. This shift is poised not only to accelerate the research lifecycle but also to fundamentally alter the collaborative dynamics be- tween human researchers and artificial intelligence in the pursuit of knowledge.」と強力なLLMの登場により現実的になりつつある分野。
- リポジトリはGitHub – HKUST-KnowComp/Awesome-LLM-Scientific-Discovery: From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery
- When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [20.0]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。 大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (Sat, 17 May 2025 05:45:16 GMT)
- 別方向から失敗例の分析も面白い。amphora/SPOT-MetaData · Datasets at Hugging Face
- Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.1]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。 本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (Tue, 27 May 2025 11:56:59 GMT)
- RAGのためのUncertainty Quantification (UQ)手法、FRANQ (Faithfulness-based Retrieval Augmented UNcertainty Quantifica- tion)の提案
- HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation [38.6]
我々は32Kの実世界の画像質問対の総合的なベンチマークであるHumaniBenchを紹介する。 HumaniBenchは、公正性、倫理、理解、推論、言語の傾き、共感、堅牢性を含む7つのHuman Centered AI(HCAI)の原則を評価している。
論文 参考訳(メタデータ) (Fri, 16 May 2025 17:09:44 GMT)
- 「HumaniBench probes seven HCAI principles—fairness, ethics, understanding, reasoning, language inclusivity, empathy, robustness—through seven diverse tasks that mix open- and closed-ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests.」というベンチマーク。商用モデルが優れた結果を出しているが、個別要素ではオープンなモデルが高スコアの場合もある。
- プロジェクトサイトはHumaniBench: A Human-Centric Benchmark for Large Multimodal Models Evaluation
- MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.3]
本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。 本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。 実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
論文 参考訳(メタデータ) (Fri, 23 May 2025 13:24:50 GMT)
- 「a systematic framework for experiment-guided hypothesis ranking in chemistry」に対するデータセットの作成と手法の提案。有望そうな結果になっているのがすごい・・・
- リポジトリはGitHub – wanhaoliu/MOOSE-Chem3
- MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models [31.9]
我々は,大規模言語モデル(LLM)用に設計されたメモリオペレーティングシステムであるMemOSを紹介する。 コアとなるMemCubeは、異種メモリの追跡、融合、マイグレーションを可能にする標準化されたメモリ抽象化である。 MemOSは、強力な制御性、適応性、進化性を備えたメモリ中心の実行フレームワークを確立する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 08:27:12 GMT)
- LLMのためのメモリ管理フレームワークの提案。「Large Language Models (LLMs) have emerged as foundational infrastructure in the pursuit of Artificial General Intelligence (AGI). Despite their remarkable capabilities in language perception and generation, current LLMs fundamentally lack a unified and structured architecture for handling memory.」はその通りで、記憶の実装はLLMの利用を進める上でとても重要
- 「MemOS provides a unified abstraction and integrated management framework for heterogeneous memory types, including parametric memory, activation memory, and explicit plaintext memory. We propose a standardized memory unit, MemCube, and implement key modules for scheduling, lifecycle management, structured storage, and transparent augmentation.」と良く設計・実装されたシステムに見えるが、このようなアプローチと(最近あまり聞かない)Deepでポン的なモデルに組み込むアプローチのどちらが有望なのか気になる。