OpenAI o1の評価、A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

OpenAI o1の評価結果が様々出ている。医療シナリオでの評価は特に興味深い。Gemini のアップデートもあり、Claude 3.5 Opusの噂もあり、商用モデルの競争も激しい。

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.7]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文参考訳（メタデータ） (Mon, 23 Sep 2024 17:59:43 GMT)
「Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios.」との評価で、GPT-4oや3.5を上回る結果。
リポジトリはA Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? (ucsc-vlaa.github.io)

A Case Study of Web App Coding with OpenAI Reasoning Models [1.7]
我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。 o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
論文参考訳（メタデータ） (Thu, 19 Sep 2024 06:58:02 GMT)
WebApp1K（GitHub – onekq/WebApp1k: WebApp1k benchmark）に対してはo1がSoTAである一方で、より長い出力が要求されるWebApp1K-Duo（onekq-ai/WebApp1K-Duo-React · Datasets at Hugging Face）ではClaude 3.5 sonnetに負ける結果。
「Speciﬁcally, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths.」という指摘が興味深い。
WebApp1K Models Leaderboard – a Hugging Face Space by onekq-ai　にLeader boardがある

Towards a Realistic Long-Term Benchmark for Open-Web Research Agents [0.2]
ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。 LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
論文参考訳（メタデータ） (Wed, 25 Sep 2024 08:52:49 GMT)
複数のベンチマークによる評価、総合的にo1は強力ではあるが、タスクや使い方による差異は大きそうに見える。

Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs [2.2]
この作業は、最近のGPT-o1モデルの公開リリースにインスパイアされている。自動プログラム修復(APR)におけるGPTファミリーモデルの異なるバージョンの有効性の比較を行った。 O1の修復機能は、以前のGPTファミリーモデルよりも優れており、ベンチマークで40のバグを修正できた。
論文参考訳（メタデータ） (Tue, 17 Sep 2024 01:49:17 GMT)
バグ修正におけるo1の評価。GPT-4oを超えている。
リポジトリはGitHub – Tomsawyerhu/GPT-O1-on-QuixBugs: Evaluating GPT-o1 on QuixBugs benchmark.

コメントを残す コメントをキャンセル