コンテンツへスキップ
- MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。 本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (Tue, 2 Jul 2024 17:58:23 GMT)
- マルチモーダルな医療用エージェントの提案、様々なツール(各タスクのSOTAな手法)を使いながら問題を解き優れた性能とのこと
- A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 03:15:13 GMT)
- 医療分野へのLLM応用のサーベイ
- 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。
- Capabilities of Gemini Models in Medicine [100.6]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。 メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。 我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 04:11:28 GMT)
- 医療特化のGemini、Med-Geminiに関する報告。GPT-4を上回る性能。かつ、「Finally, Med-Gemini’s performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization and referral letter generation, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education.」
- 医療用にfine tuningすればこうなるだろうとは思いつつ、進化が速い。
- Towards Conversational Diagnostic AI [32.8]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 04:25:06 GMT)
- LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
- 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。
- Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data [38.9]
オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。 その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。 我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
論文 参考訳(メタデータ) (Wed, 16 Aug 2023 06:04:48 GMT)
- メンタルヘルス予測タスクへのLLM活用に関する報告。zero shot, few shot, instruction finetuningといった様々な方法&Alpaca, FLAN, GPT-3.5, GPT-4など様々なモデルで評価されており興味深い。
- 「Instruction finetuning on multiple mental health datasets can significantly boost the performance of LLMs on various mental health prediction tasks.」や「Although task-solving-focused LLMs may have better performance in the zero-shot setting for mental health prediction tasks, dialogue-focused LLMs have a stronger capability of learning from human natural language and can improve more significantly after finetuning.」など興味深い結果となっている。メンタルヘルスというドメインに依存した話なのか一般的な傾向なのかはよくわからないが、様々なアプローチの結果を比較するのは重要であるとの感想。
- Towards Generalist Biomedical AI [28.7]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (Wed, 26 Jul 2023 17:52:22 GMT)
- マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
- パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。
- The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。 われわれはChatGPTとGPT-4を用いて2つの分析を行った。 患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。 これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
論文 参考訳(メタデータ) (Sun, 16 Jul 2023 21:19:47 GMT)
- 医療分野におけるGPT-4活用可能性の検討、(今までも色々指摘されている通り)誤記の問題は大きいよう。