Evaluation of OpenAI o1: Opportunities and Challenges of AGI / On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability

  • Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.1]
    o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。 このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。 総合的な結果は、人工知能への大きな進歩を示している。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 06:57:00 GMT)
  • OpenAI o1の詳細な検証。「Advanced Reasoning Capabilities: o1-preview demonstrated exceptional logical reasoning abilities in multiple fields, including high school mathematics, quantitative investing, and chip design」、「Domain-Specific Knowledge: The model exhibited impressive knowledge breadth across diverse fields such as medical genetics, radiology, anthropology, and geology.」、「It often performed at a level comparable to or exceeding that of graduate students or early-career professionals in these domains.」と高い行がされている。一方で「However, it still lacks the flexibility and adaptability of human experts in these fields.」、「It demonstrated the ability to capture complex expressions like irony and sarcasm, though it still struggles with very subtle emotional nuances.」という指摘も。
  • 関わっている方も多く他分野からの詳細な検証結果、非常に参考になる。
  • On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability [59.7]
    さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 30 Sep 2024 03:58:43 GMT)
  • 計画能力を対象としたo1の評価。GPT-4oと比べて優れているとのこと。
  • 1. Understanding the Problem、2. Following Constraints、3. State and Memory Management、4. Reasoning and GeneralizationでFindingsがまとめられている。いずれも強力だが、3.については「as problem complexity increased, the model’s state management became less reliable, particularly in tasks involving spatial reasoning across multiple dimensions.」、4.については「While o1-preview showed some promise in its generalization ability, particularly in structured environments like Grippers, its performance in more abstract tasks like Termes revealed substantial limitations. The model struggled with reasoning under conditions where actions and outcomes were less directly tied to the natural language representation of the task, highlighting an area for future improvements.」という指摘も
  • When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1 [20.1]
    o1 は OpenAI の新しいシステムで,従来の LLM と異なり,推論に最適化されている。 多くの場合、o1 は従来の LLM よりも大幅に優れており、特に共通タスクの稀な変種に対して大きな改善が加えられている。 しかし、o1は以前のシステムで観測したのと同じ定性的傾向を示している。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:50:19 GMT)
  • 「On many of the tasks we considered, o1 performed substantially better than the LLMs we had previously evaluated, with particularly strong results on rare variants of common tasks. However, it still qualitatively showed both of the central types of probability sensitivity discussed in McCoy et al (2023): sensitivity to output probability and sensitivity to task frequency.」という指摘。

OpenAI o1の評価、A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

    OpenAI o1の評価結果が様々出ている。医療シナリオでの評価は特に興味深い。Gemini のアップデートもあり、Claude 3.5 Opusの噂もあり、商用モデルの競争も激しい。

    Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more – Google Developers Blog (googleblog.com)

    • A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.7]
      OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。 本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
      論文  参考訳(メタデータ)   (Mon, 23 Sep 2024 17:59:43 GMT)
    • 「Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios.」との評価で、GPT-4oや3.5を上回る結果。
    • リポジトリはA Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? (ucsc-vlaa.github.io)

    • A Case Study of Web App Coding with OpenAI Reasoning Models [1.7]
      我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。 o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
      論文  参考訳(メタデータ)   (Thu, 19 Sep 2024 06:58:02 GMT)
    • WebApp1K(GitHub – onekq/WebApp1k: WebApp1k benchmark)に対してはo1がSoTAである一方で、より長い出力が要求されるWebApp1K-Duo(onekq-ai/WebApp1K-Duo-React · Datasets at Hugging Face)ではClaude 3.5 sonnetに負ける結果。
    • 「Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths.」という指摘が興味深い。
    • WebApp1K Models Leaderboard – a Hugging Face Space by onekq-ai にLeader boardがある

    • Towards a Realistic Long-Term Benchmark for Open-Web Research Agents [0.2]
      ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。 我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。 LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
      論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 08:52:49 GMT)
    • 複数のベンチマークによる評価、総合的にo1は強力ではあるが、タスクや使い方による差異は大きそうに見える。
    • Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs [2.2]
      この作業は、最近のGPT-o1モデルの公開リリースにインスパイアされている。 自動プログラム修復(APR)におけるGPTファミリーモデルの異なるバージョンの有効性の比較を行った。 O1の修復機能は、以前のGPTファミリーモデルよりも優れており、ベンチマークで40のバグを修正できた。
      論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 01:49:17 GMT)
    • バグ修正におけるo1の評価。GPT-4oを超えている。
    • リポジトリはGitHub – Tomsawyerhu/GPT-O1-on-QuixBugs: Evaluating GPT-o1 on QuixBugs benchmark.