- Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
論文 参考訳(メタデータ) (Sun, 03 Nov 2024 17:57:00 GMT) - 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
- プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
タグ: 医療
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
- MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.8]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。 我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 23:03:27 GMT) - 医療ドメイン、かつ、マルチモーダルなRAGシステムの提案。ドメインを判別してRetireverを使い分けるなど凝った構成。「These enhancements significantly boost the factual accuracy of Med-LVLMs.」とのことで、この手の工夫は重要。
- リポジトリはGitHub – richard-peng-xia/MMed-RAG: [arXiv’24 & NeurIPSW’24] MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey
- Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。 我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。 答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
論文 参考訳(メタデータ) (Fri, 23 Aug 2024 07:31:01 GMT) - マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
- 「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
- リポジトリはGitHub – DeepReasoning/aihealth
BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science
- BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.6]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。 私たちはまず『Understanding Literature』を2つの原子能力に分解した。 次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。 2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文 参考訳(メタデータ) (Sat, 29 Jun 2024 15:23:28 GMT) - biomedical分野向けのAIエージェントベンチマーク。「Knowledge Graph Question Answering」、「Scientific Claim Verification」を基礎的能力としてKGCheckという総合的なタスクを提案
- リポジトリはGitHub – westlake-autolab/Agent4S-BioKG: Agent4S-BioKG: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science
MMedAgent
- MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。 本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (Tue, 2 Jul 2024 17:58:23 GMT) - マルチモーダルな医療用エージェントの提案、様々なツール(各タスクのSOTAな手法)を使いながら問題を解き優れた性能とのこと
A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions
- A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 03:15:13 GMT) - 医療分野へのLLM応用のサーベイ
- 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。
Capabilities of Gemini Models in Medicine
- Capabilities of Gemini Models in Medicine [100.6]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。 メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。 我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 04:11:28 GMT) - 医療特化のGemini、Med-Geminiに関する報告。GPT-4を上回る性能。かつ、「Finally, Med-Gemini’s performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization and referral letter generation, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education.」
- 医療用にfine tuningすればこうなるだろうとは思いつつ、進化が速い。
Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)
- Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文 参考訳(メタデータ) (Tue, 20 Feb 2024 17:44:06 GMT) - ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
- リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)
AMIE: Articulate Medical Intelligence Explorer
- Towards Conversational Diagnostic AI [32.8]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 04:25:06 GMT) - LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
- 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。
MEDITRON-70B
- MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.3]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。 医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (Mon, 27 Nov 2023 18:49:43 GMT) - 医療特化型の大規模言語モデルの提案。最初のページの図が規模としても時間感覚としても分かりやすい。様々な評価がされているのでドメイン特化型の効果も把握できる。
- リポジトリはGitHub – epfLLM/meditron: Meditron is a suite of open-source medical Large Language Models (LLMs).