ImpossibleBench: Measuring LLMs’ Propensity of Exploiting Test Cases 

  • ImpossibleBench: Measuring LLMs’ Propensity of Exploiting Test Cases [58.4]
    タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。 我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。 実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
    論文  参考訳(メタデータ)   (Thu, 23 Oct 2025 06:58:32 GMT)
  • 「we introduce ImpossibleBench, a benchmark framework that systematically measures LLM agents’ propensity to exploit test cases.」と不正行為を測るためのベンチマーク。「frontier models frequently cheat when faced with these impossible tasks, and stronger models generally exhibit higher cheating rates.」という指摘が興味深いし感覚にも合う・・・
  • リポジトリはGitHub – safety-research/impossiblebench

ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows 

  • ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows [109.3]
    CS-54k(CS-54k)は、コンピュータ科学におけるQ&Aペアの高品質なコーパスである。 CS-4kは、科学研究を支援するAIの能力を評価するためのベンチマークである。 CS-50kは大規模なトレーニングデータセットである。
    論文  参考訳(メタデータ)   (Thu, 23 Oct 2025 07:07:35 GMT)
  • 「We introduce CS-4k, the first benchmark that systematically evaluates the end-to-end research workflow in computer science through open-ended scientific question answering, offering a rigorous yardstick to assess LLMs’ ability to assist scientific research.」というベンチマーク。また、これらデータを用いたポストトレーニングの有効性を主張。
  • リポジトリはGitHub – wph6/ResearchGPT: Official repo for ReseachGPT

Human-AI Interactions: Cognitive, Behavioral, and Emotional Impacts

  • Human-AI Interactions: Cognitive, Behavioral, and Emotional Impacts [0.0]
    過度な信頼感、認知的オフロード、社会的および感情的な操作、および人間の代理店の曖昧な劣化と判断の潜在的なリスクが強調される。 観察によると、AIは記憶、創造性、エンゲージメントを大幅に向上させることができるが、批判的思考の減少、スキルの侵食、不安の増加といったリスクももたらしている。 本稿は、人間中心の新たなリスクと利益のバランスをとるための、縦断的研究と評価フレームワークのギャップを浮き彫りにして、責任とコンテキストを意識したAI設計の必要性を明らかにすることを目的としている。
    論文  参考訳(メタデータ)   (Mon, 20 Oct 2025 17:06:46 GMT)
  • 人間とAIのかかわりに関してのサーベイ。リスク面で注意すべきかもしれない事例が多く紹介されている。