コンテンツへスキップ
- Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce [45.3]
作業員がAIエージェントの自動化や強化を望んでいるかを評価するための新しい枠組みを導入する。 我々のフレームワークは、ニュアンスな労働者の欲求を捉えるために、オーディオ強化されたミニインタービューを備えている。 我々はWORKBankデータベースを構築し、1500のドメインワーカーの好みとAI専門家の能力評価を収集する。
論文 参考訳(メタデータ) (Wed, 11 Jun 2025 21:25:21 GMT)
- 「This paper presents the first large-scale audit of both worker desire and technological capability for AI agents in the context of automation and augmentation.」という調査報告。下記4象限で見ると希望しているものと研究の方向性があっているとは言い難そう。
- Automation “Green Light” Zone: Tasks with both high automation desire and high capability. These are prime candidates for AI agent deployment with the potential for broad productivity and societal gains.
- Automation “Red Light” Zone: Tasks with high capability but low desire. Deployment here warrants caution, as it may face worker resistance or pose broader negative societal implications
- R&D Opportunity Zone: Tasks with high desire but currently low capability. These represent promising directions for AI research and development.
- Low Priority Zone: Tasks with both low desire and low capability. These are less urgent for AI agent development.
- 下記の研究結果ともあわせてAIを使い続けていくと傾向が変わったりするのか、気になるところ。
- Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task [17.6]
本研究は、教育文脈における大規模言語モデル(LLM)の使用が認知負荷に与える影響を調査しました。54人の参加者を対象に、LLM、検索エンジン、脳のみのグループに分け、脳波(EEG)を用いて神経活動を記録し、学習効果を測定しました。結果として、LLM群は他のグループと比較して認知的なネットワーク接続が弱く、学習スキルの低下が見られ、AIが学習環境に与える影響の理解に向けた初歩的な指針を提供することを目指しています。
論文 参考訳(メタデータ) (Tue, 10 Jun 2025 15:04:28 GMT)
- AIの活用が人間にどのような影響を与えるか、教育関連の報告。「As the educational impact of LLM use only begins to settle with the general population, in this study we demonstrate the pressing matter of a likely decrease in learning skills based on the results of our study. The use of LLM had a measurable impact on participants, and while the benefits were initially apparent, as we demonstrated over the course of 4 months, the LLM group’s participants performed worse than their counterparts in the Brain-only group at all levels: neural, linguistic, scoring.」とやや怖い結果になっている。
- プロジェクトサイトはYour Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task
- Protecting Human Cognition in the Age of AI [2.1]
ジェネレーティブAI(GenAI)の急速な普及は、人間の認知に大きな影響を及ぼしており、情報との関わり方や思考、学習の仕方を再構築しています。本稿では、特に学生などの初心者に焦点を当て、効果的な人間とAIの相互作用を理解する重要性を強調し、批判的思考を促進する教育体験の再設計について考察しています。また、GenAIが認知能力に与える影響や、情報過多などの社会的要因との相互作用についても探求しています
論文 参考訳(メタデータ) (Fri, 11 Apr 2025 21:14:29 GMT)
- 短めだがSurvey的な論文。
- Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.5]
我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists’ First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。 実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 09:29:16 GMT)
- 「we introduce the Scientists’ First Exam (SFE) benchmark, designed to comprehensively evaluate the scientific cognitive capabilities of MLLMs through three cognitive levels (cog-levels): Scientific Signal Perception (L1) characterizes the capacity to discern critical components within visualizations of scientific raw data; Scientific Attribute Understanding (L2) demonstrates the ability to interpret domain-expert knowledge; Scientific Comparative Reasoning (L3) manifests the ability to derive phenomenological insights through structured comparison of multiple scientific visual sources. SFE encompasses 66 expert-curated, high-value multimodal tasks across five disciplines: Astronomy, Chemistry, Earth, Life, and Materials Sciences (Fig. 1b).」というベンチマーク。MLLM向け、VQAとして構成されている。
- リポジトリはPrismaX/SFE · Datasets at Hugging Face、プロジェクトサイトはPrismaX
- Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.3]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。 多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。 その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (Wed, 18 Jun 2025 17:58:17 GMT)
- 「we introduce EMBODIED WEB AGENTS as a new conceptual paradigm of AI systems that unify physical embodiment with web-scale knowledge access — capable of perceiving and acting in the real world while reasoning over dynamic, unstructured information from the web.」という提案。ベンチマークも構築されている。よくありそうなシチュエーションだが、現時点では先端モデルも苦戦する難しいタスクとなっている。
- リポジトリはEmbodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
- Counterfactual reasoning: an analysis of in-context emergence [49.6]
大規模ニューラルネットワークモデル(LM)は、文脈内学習において顕著な性能を示す。 この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。
論文 参考訳(メタデータ) (Thu, 05 Jun 2025 16:02:07 GMT)
- 「we provide insights into how in-context counterfactual reasoning is equivalent to transformations on in-context observations (Lemma 1). 」、「 we empirically show that language models can perform in-context counterfactual reasoning」とのこと。
- Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
論文 参考訳(メタデータ) (Wed, 04 Jun 2025 10:24:40 GMT)
- LLMを使った信用リスク評価のサーベイ
- Agents of Change: Self-Evolving LLM Agents for Strategic Planning [17.7]
我々は、シンプルなゲームプレイングエージェントから、自身のプロンプトとプレイヤーエージェントのコードを自動で書き直すことができるシステムまで、LSMベースのエージェントの進歩をベンチマークする。 以上の結果から,特にClaude 3.7 や GPT-4o などのモデルによって駆動される自己進化型エージェントは,その戦略を自律的に採用することで,静的ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (Thu, 05 Jun 2025 05:45:24 GMT)
- カタンの開拓者を対象として Self-Evolving Agent Frameworkの提案と検証。
- 「Through extensive experiments, we show that agents capable of prompt and code evolution achieve consistently higher performance than static baselines. The PromptEvolver, in particular, outperforms fixed agents across key metrics, and its gains are amplified when paired with stronger base models, seen in Claude 3.7’s 95% improvement from the BaseAgent」とのこと。PromptEvolverには「Evolver Agent: Provided with access to game results, evolution history, and tools to search the web, view local files, and edit the Player Agent’s prompt.」が含まれている。
- プロンプトやコードといった思考能力たるWeight外のself-improveも十分効果的のよう。(ICLが有効と考えれば一定思考能力を改善しているともいえるのか・・・?)
- Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.7]
本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。 トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。 ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 06:21:19 GMT)
- 「Hierarchical Multimodal Skills (HMS) module for long-horizon planning」、「A Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm for knowledge exploration in online settings.」をキーとするcross-platform, plug-and-play GUI agent、Mirage-1の提案
- プロジェクトサイトはMirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
- BLUR: A Bi-Level Optimization Approach for LLM Unlearning [106.0]
大規模言語モデル(LLMs)が訓練によって得た知識や能力を上手く忘れさせることは、データ規制の遵守や倫理的なAI使用に不可欠である。従来の忘却と保持の損失を重み付けした手法は性能低下を招きやすいため、著者らは忘却を優先させた階層的アプローチを提案し、新しいアルゴリズム「Bi-Level UnleaRning(BLUR)」を開発した。この手法は理論的保証を持ちながら、様々な課題において他の最先端アルゴリズムを上回る性能を示している。
論文 参考訳(メタデータ) (Mon, 09 Jun 2025 19:23:05 GMT)
- 「Should we aim to forget and retain simultaneously? In many cases, the answer is no.」、「Instead of treating unlearning as a binary process of simply forgetting specific information while retaining the rest, we argue that we should prioritize and structure these tasks hierarchically.」を軸とした新たなunlearning手法の提案。
- リポジトリはGitHub – OptimAI-Lab/BLURLLMUnlearning