Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)

  • Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
    大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 17:44:06 GMT)
  • ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
  • リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)

AMIE: Articulate Medical Intelligence Explorer

  • Towards Conversational Diagnostic AI [32.8]
    本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 04:25:06 GMT)
  • LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
  • 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。

MEDITRON-70B

  • MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.3]
    大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。 医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
    論文  参考訳(メタデータ)   (Mon, 27 Nov 2023 18:49:43 GMT)
  • 医療特化型の大規模言語モデルの提案。最初のページの図が規模としても時間感覚としても分かりやすい。様々な評価がされているのでドメイン特化型の効果も把握できる。
  • リポジトリはGitHub – epfLLM/meditron: Meditron is a suite of open-source medical Large Language Models (LLMs).

Mental-LLM

  • Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data [38.9]
    オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。 その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。 我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。 
    論文  参考訳(メタデータ)   (Wed, 16 Aug 2023 06:04:48 GMT)
  • メンタルヘルス予測タスクへのLLM活用に関する報告。zero shot, few shot, instruction finetuningといった様々な方法&Alpaca, FLAN, GPT-3.5, GPT-4など様々なモデルで評価されており興味深い。
  • 「Instruction finetuning on multiple mental health datasets can significantly boost the performance of LLMs on various mental health prediction tasks.」や「Although task-solving-focused LLMs may have better performance in the zero-shot setting for mental health prediction tasks, dialogue-focused LLMs have a stronger capability of learning from human natural language and can improve more significantly after finetuning.」など興味深い結果となっている。メンタルヘルスというドメインに依存した話なのか一般的な傾向なのかはよくわからないが、様々なアプローチの結果を比較するのは重要であるとの感想。

Med-PaLM Multimodal

  • Towards Generalist Biomedical AI [28.7]
    我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
    論文  参考訳(メタデータ)   (Wed, 26 Jul 2023 17:52:22 GMT)
  • マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
  • パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant

  • The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
    ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。 われわれはChatGPTとGPT-4を用いて2つの分析を行った。 患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。 これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 21:19:47 GMT)
  • 医療分野におけるGPT-4活用可能性の検討、(今までも色々指摘されている通り)誤記の問題は大きいよう。

Clinical Note Generation from Doctor-Patient Conversations using Large Language Models

  • WangLab at MEDIQA-Chat 2023: Clinical Note Generation from Doctor-Patient Conversations using Large Language Models [2.4]
    我々はMEDIQA-Chat 2023の共有タスクを医師と患者との会話から自動的な臨床ノート作成のために提出した。 本稿では,共有タスクデータに事前学習言語モデル(PLM)を1つ,大言語モデル(LLM)を2つ導入し,その2つについて報告する。 専門家の人間の精査は、ICLベースのGPT-4によるアプローチによって生成されたメモが、人間によるメモと同じくらい頻繁に好まれていることを示している。
    論文  参考訳(メタデータ)   (Sat, 3 Jun 2023 17:56:29 GMT)
  • 患者との対話記録からの臨床ノート作成、コンペティションで行われたもののよう。GPT-4 + ICLがPLM + finetuneに勝っている点、GPT-4 + ICLが人が書いたGrund Truthと互角レベルで人に好まれる点など面白い結果となっている。
  • リポジトリはGitHub – bowang-lab/MEDIQA-Chat-2023: A repository for organizing our submission to the MEDIQA-Chat Tasks @ ACL-ClinicalNLP 2023

A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications

  • A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications [62.6]
    本研究の目的は,mHealthアプリのユーザ受け入れに影響を与える要因を検討することである。 利用者のデジタルリテラシーは、個人情報を共有するオンライン習慣に続き、使用意欲に最も強い影響を与える。 居住国、年齢、民族、教育などの利用者の人口統計学的背景は、顕著な緩和効果がある。
    論文  参考訳(メタデータ)   (Wed, 10 May 2023 08:11:21 GMT)
  • モバイルヘルスアプリケーションを受け入れるか否かについて、どのような因子が重要か調べた論文。複数の国が対象だが、残念ながら日本は入っていない。
  • 「our study reveals that users’ privacy concern had only a moderate impact, which was outweighed by users’ digital literacy.」というのはやや意外な結果。日本だと話は別だったりするのだろうか。

Huatuo-26M

Large Language Models Encode Clinical Knowledge 

  • Large Language Models Encode Clinical Knowledge [21.6]
    大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。 本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。 本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
    論文  参考訳(メタデータ)   (Mon, 26 Dec 2022 14:28:24 GMT)
  • FLAN-PaLM+様々なテクニックおよびFLAN-PaLM+instruction prompt tuningで構築したMed-PaLMにより様々な医療分野のベンチマークでSoTA
  • 人間(医者)には及んでいないものの試験合格水準にあるように見え、衝撃的な結果…