- MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.8]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 14:07:56 GMT) - Medical分野のベンチマーク。o1だけでなくDeepseek R1の結果も載っており、対応が速い。この結果だとo1はDeepseek R1より大幅にスコアが高い。
- リポジトリはGitHub – TsinghuaC3I/MedXpertQA: MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
タグ: 医療
A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities
- A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities [31.2]
医療におけるEmAIは、アルゴリズム、ロボティクス、バイオメディシンといった多様な分野にまたがる。 医療のためのEmAIの”脳”の概要を包括的に紹介し、認識、アクティベーション、計画、記憶のためのAIアルゴリズムを紹介します。 我々は、技術的な障壁を議論し、倫理的考察を探求し、医療におけるEmAIの将来を前方視する。
論文 参考訳(メタデータ) (Mon, 13 Jan 2025 16:35:52 GMT) - 医療におけるEmbodiedAIのサーベイ。非常に広範な内容で引用数は800を超える
MedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
- Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
論文 参考訳(メタデータ) (Sun, 03 Nov 2024 17:57:00 GMT) - 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
- プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
- MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.8]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。 我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 23:03:27 GMT) - 医療ドメイン、かつ、マルチモーダルなRAGシステムの提案。ドメインを判別してRetireverを使い分けるなど凝った構成。「These enhancements significantly boost the factual accuracy of Med-LVLMs.」とのことで、この手の工夫は重要。
- リポジトリはGitHub – richard-peng-xia/MMed-RAG: [arXiv’24 & NeurIPSW’24] MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey
- Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。 我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。 答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
論文 参考訳(メタデータ) (Fri, 23 Aug 2024 07:31:01 GMT) - マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
- 「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
- リポジトリはGitHub – DeepReasoning/aihealth
BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science
- BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.6]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。 私たちはまず『Understanding Literature』を2つの原子能力に分解した。 次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。 2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文 参考訳(メタデータ) (Sat, 29 Jun 2024 15:23:28 GMT) - biomedical分野向けのAIエージェントベンチマーク。「Knowledge Graph Question Answering」、「Scientific Claim Verification」を基礎的能力としてKGCheckという総合的なタスクを提案
- リポジトリはGitHub – westlake-autolab/Agent4S-BioKG: Agent4S-BioKG: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science
MMedAgent
- MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。 本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (Tue, 2 Jul 2024 17:58:23 GMT) - マルチモーダルな医療用エージェントの提案、様々なツール(各タスクのSOTAな手法)を使いながら問題を解き優れた性能とのこと
A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions
- A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 03:15:13 GMT) - 医療分野へのLLM応用のサーベイ
- 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。
Capabilities of Gemini Models in Medicine
- Capabilities of Gemini Models in Medicine [100.6]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。 メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。 我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 04:11:28 GMT) - 医療特化のGemini、Med-Geminiに関する報告。GPT-4を上回る性能。かつ、「Finally, Med-Gemini’s performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization and referral letter generation, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education.」
- 医療用にfine tuningすればこうなるだろうとは思いつつ、進化が速い。
Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)
- Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 17:44:06 GMT) - ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
- リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)