Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

  • Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.9]
    SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。 SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。 SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
    論文  参考訳(メタデータ)   (Thu, 01 May 2025 19:06:10 GMT)
  • 「SAGE instantiates a Sentient Agent that simulates human- like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts.」(SAGE=Sentient Agent as a Judge)という評価フレームワークの提案。「rankings produced by SAGE diverge markedly from Arena results, confirming that social cognition is orthogonal to generic helpfulness. 」とのこと。
  • リポジトリはdigitalhuman/SAGE at main · Tencent/digitalhuman · GitHub

Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications

  • Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.4]
    大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。 彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。 本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 06:09:40 GMT)
  • 「(1) assessment tools; (2) LLM-specific datasets; (3) evaluation metrics (consistency and stability); (4) empirical findings; (5) personality simulation methods; and (6) LLM-based behavior simulation.」を軸としたレビュー。

HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights

  • HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.8]
    HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。 コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 22:50:23 GMT)
  • 「Despite the widespread adoption of RAG, it faces three significant technical challenges that hinder its ability to scale to millions of documents.」はまさにその通りで、大規模RAGの構築にとって参考になる論文。
  • かなり凝ったことも行っている。(分野によっては)実用上もこのようなアプローチが必要になるんだろうか…

Holmes: Automated Fact Check with Large Language Models

  • Holmes: Automated Fact Check with Large Language Models [31.8]
    本研究では,Large Language Models (LLMs) を用いて自動偽情報検出を行う。 新たなエビデンス検索手法を特徴とするエンドツーエンドフレームワークであるHolmesを提案する。 提案手法では,(1)LLMを用いた要約を用いてオープンソースから鍵情報を抽出し,(2)エビデンスの品質を評価するための新しいアルゴリズムと指標を提案する。
    論文  参考訳(メタデータ)   (Tue, 06 May 2025 03:19:51 GMT)
  • ファクトチェックに関する論文で丁寧な記載とFIndingsがととても参考になる。
    • 「Finding 1: LLMs CANNOT accurately verify the truth- fulness of the claim directly.」、「Finding 2: LLMs have shortcomings in searching for claim-relevant public information and their responses may include hallucinated links that weaken result trust- worthiness.」、「Finding 3: Human-written evidence enhances LLMs’ ability to verify multimodal claims and generate coherent justifications.」
  • 上記をもとにHolmesを設計、有効性を確認とのこと