コンテンツへスキップ
- MARS: Memory-Enhanced Agents with Reflective Self-improvement [19.0]
本稿では,リフレクティブ自己改善型メモリ強化エージェントを提案する。 フレームワークは、User、Assistant、Checkerの3つのエージェントで構成されている。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 02:05:46 GMT)
- 「we propose the MARS framework, which enhances agents’ self-adjustment and memory management in complex tasks through reflective mechanisms and memory optimization.」
- 「The MARS framework implements a dual-memory system, consisting of Short-Term Memory (STM) and Long-Term Memory (LTM)」と短期・長期を分けていることが特徴的なエージェンティックなアプローチのメモリ強化フレームワークの提案。
- CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? [36.8]
CLAIMCHECKは、NeurIPS 2023と2024のアノテートデータセットであり、OpenReviewから抽出されたレビューである。 CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。 我々は,CLAIMCHECK が支援する3つのクレーム中心タスクについて,(1) 紛争のクレームに弱点を関連付けること,(2) 弱点のきめ細かいラベルを予測し,その特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証すること,の3つについて,LCM をベンチマークする。
論文 参考訳(メタデータ) (Thu, 27 Mar 2025 17:29:45 GMT)
- 「This work has introduced CLAIMCHECK—a benchmark of reviewer-identified weaknesses in NeurIPS 2023 and 2024 submissions, richly annotated with descriptive labels by experts and grounded in the claims that they dispute in the reviewed papers. Further, we benchmark various LLMs on three novel tasks enabled by CLAIMCHECK—Weakness Labeling and Editing (WLE), Claim Association (CA), and Claim Verification (CV)—all aimed at assisting reviewers during the peer review process.」というベンチマークの提案。現在のLLMにとって難しいタスクとなっている。
- リポジトリはhttps://github.com/JHU-CLSP/CLAIMCHECKとのこと