OpenAI o1の評価結果が様々出ている。医療シナリオでの評価は特に興味深い。Gemini のアップデートもあり、Claude 3.5 Opusの噂もあり、商用モデルの競争も激しい。
Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more – Google Developers Blog (googleblog.com)
- A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.7]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。 本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (Mon, 23 Sep 2024 17:59:43 GMT)
- 「Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios.」との評価で、GPT-4oや3.5を上回る結果。
- リポジトリはA Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? (ucsc-vlaa.github.io)
- Towards a Realistic Long-Term Benchmark for Open-Web Research Agents [0.2]
ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。 我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。 LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
論文 参考訳(メタデータ) (Wed, 25 Sep 2024 08:52:49 GMT)
- 複数のベンチマークによる評価、総合的にo1は強力ではあるが、タスクや使い方による差異は大きそうに見える。