OpenAI o1の評価、A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

    OpenAI o1の評価結果が様々出ている。医療シナリオでの評価は特に興味深い。Gemini のアップデートもあり、Claude 3.5 Opusの噂もあり、商用モデルの競争も激しい。

    Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more – Google Developers Blog (googleblog.com)

    • A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.7]
      OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。 本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
      論文  参考訳(メタデータ)   (Mon, 23 Sep 2024 17:59:43 GMT)
    • 「Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios.」との評価で、GPT-4oや3.5を上回る結果。
    • リポジトリはA Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? (ucsc-vlaa.github.io)

    • A Case Study of Web App Coding with OpenAI Reasoning Models [1.7]
      我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。 o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
      論文  参考訳(メタデータ)   (Thu, 19 Sep 2024 06:58:02 GMT)
    • WebApp1K(GitHub – onekq/WebApp1k: WebApp1k benchmark)に対してはo1がSoTAである一方で、より長い出力が要求されるWebApp1K-Duo(onekq-ai/WebApp1K-Duo-React · Datasets at Hugging Face)ではClaude 3.5 sonnetに負ける結果。
    • 「Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths.」という指摘が興味深い。
    • WebApp1K Models Leaderboard – a Hugging Face Space by onekq-ai にLeader boardがある

    • Towards a Realistic Long-Term Benchmark for Open-Web Research Agents [0.2]
      ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。 我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。 LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
      論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 08:52:49 GMT)
    • 複数のベンチマークによる評価、総合的にo1は強力ではあるが、タスクや使い方による差異は大きそうに見える。
    • Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs [2.2]
      この作業は、最近のGPT-o1モデルの公開リリースにインスパイアされている。 自動プログラム修復(APR)におけるGPTファミリーモデルの異なるバージョンの有効性の比較を行った。 O1の修復機能は、以前のGPTファミリーモデルよりも優れており、ベンチマークで40のバグを修正できた。
      論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 01:49:17 GMT)
    • バグ修正におけるo1の評価。GPT-4oを超えている。
    • リポジトリはGitHub – Tomsawyerhu/GPT-O1-on-QuixBugs: Evaluating GPT-o1 on QuixBugs benchmark.