AI醫生來了,你敢信它的診斷嗎
“近一年總是餓,吃得多,還瘦了。”武漢市協和醫院麻醉醫生凌肯在電腦上敲下這句話。現在他是一名患者,專門測試一位“醫生”的水平。
“請問您有沒有既往病史,例如糖尿病、甲狀腺疾病等?家族中有沒有類似的病例?您有沒有藥物過敏史或手術史?”屏幕另一端的“醫生”回復他。
和凌肯對話的不是真人,而是一款名為MedGPT的大語言模型問診AI,由互聯網醫療公司醫聯開發。自ChatGPT發布以來,國內外企業都先后投入到醫療大語言模型研發的浪潮中。騰訊、百度等大廠,華為、訊飛、商湯等科技公司,以及醫聯、春雨醫生等互聯網醫療企業,陸續公布在垂直類大模型方面的布局。
7月,谷歌公司的醫療問診AI Med-PalM的研究團隊在《自然》雜志發布了研究成果,經臨床醫生評估,Med-PalM的長篇回答中有92.6%與科學共識一致。“AI醫生”的優異表現也引發更多討論與擔憂:AI達到替代醫生的水平了嗎?怎樣保證AI的準確性?如果AI診斷出問題,誰來為錯誤負責?
凌肯和MedGPT的對話還在繼續。問過既往病史、家族史、過敏史后,“醫生”又詢問了體重減輕范圍、其他癥狀表現、睡眠質量、飲食習慣、血壓等信息,最后開出一份檢查方案,要求凌肯檢查血糖、甲狀腺功能。凌肯將準備好的檢查結果輸入,十幾秒后,MedGPT給出自己的診斷:甲狀腺功能亢進癥——答案是正確的。
圖/視覺中國
醫生們對AI早已不陌生。2017年,國內首批醫療AI產品以科研合作的方式進入醫院,2018年起,這些產品陸續獲得國家藥監局審批。截至今年5月底,國家藥監局已批準59個醫療AI輔診軟件上市。上海長征醫院放射診斷科主任劉士遠曾表示,發展最為成熟的是肺結節和冠脈影像輔診兩類,骨科、腦科等AI輔診軟件還未被常規使用。
以心臟冠狀動脈CT血管造影,即冠脈CTA為例,一名患者做一次檢查產生上百張圖片,醫生需要在其中找出血管是否出現狹窄、斑塊。AI能將每例圖像的處理時間從45分鐘縮短到5分鐘。
在引入臨床決策支持系統(以下簡稱CDSS)的醫院里,AI還能幫醫護作臨床決策。CDSS是一種綜合分析醫學知識和患者信息,為醫務人員臨床診療提供多種幫助的計算機輔助信息系統。2020年4至5月期間,國家衛健委醫院管理研究所對全國31個省份的1013所醫療機構調研,其中19.6%的醫院有CDSS。
但這些產品并未對提升醫生的診斷水平有太多幫助。多位受訪醫生、規培醫師告訴《中國新聞周刊》,由于科室收治病人種類相對固定,處理流程成熟,基本不會使用CDSS作參考,遇到不確定的問題會直接咨詢上級醫生或科室討論。并且,現在的CDSS還很“死板”,在自動審查醫囑時,會對超說明書用藥“糾錯”。“但往往我們會堅持用藥。”一名三甲醫院規培醫師說。
國家衛健委衛生發展研究中心副主任游茂7月在全國醫療器械安全宣傳周暨人工智能標準宣貫會上表示,當前AI醫療領域的困境之一,在于技術發展同質化嚴重,數據、算法的優勢尚未得到體現。中國AI醫療器械95%的研究或產出都在醫學影像類,在“醫療機器人”“知識庫”“自然語言處理”等領域研究相對不足,關于“決策規則”的研究幾近空白。
“其實不是研究空白,是落地成產品有很多限制。” 一位研究醫療領域自然語言處理十年的高校學者告訴《中國新聞周刊》。她表示, X光機、CT設備、磁共振儀等影像類醫療器械是醫療機構的硬需求,AI輔診軟件可搭載在影像設備上,相比處理文本數據的軟件更易進入醫療機構。另外,影像數據較診療文本數據更獨立,更易脫敏,且公開的圖像數據庫更多,而公開的高質量診療文本數據十分有限,這使得在“自然語言處理”等領域研究不足。
ChatGPT的出現,讓企業看到大語言模型給AI問診帶來的新機會。
醫聯創始人兼CEO王仕銳表示,醫聯此前也開發了包括口腔影像識別、精神科DTx數字療法等醫療AI類產品,但無法實現AI全流程診療。“當時遇到一個無法逾越的鴻溝——自然語義的識別。”王仕銳說,大語言模型推出前,雖然知識圖譜等技術也能實現人機對話,但對話機器人的推理、上下文理解能力還不足,并難以做到普通人語言與醫學術語間的語義轉換。
MedGPT從今年1月開始研發,5月推出,參數達千億級別,定位是突破“人問機答”模式,能像真人醫生一樣主動多輪詢問患者癥狀等信息,推斷患者可能患病的類型,并開具檢驗檢查單。患者輸入檢查數據后,AI可繼續讀取數據,并給出治療方案。
目前,MedGPT還未對公眾開放。參與內測的凌肯用了一小時和MedGPT互動,拋出的問題包括麻醉是否會影響患者智商,甲狀腺功能亢進患者的完整診斷等。凌肯告訴《中國新聞周刊》,MedGPT問得很詳細,回復也較真人醫生更加親和,“但遠遠沒到取代醫生的地步”。
他解釋道,體驗過程中最突出的問題是,MedGPT不能很好地接收非醫療信息。若模擬真實看診過程中患者向醫生傾訴家庭情況等非醫療信息, MedGPT還做不到提煉其中的核心信息,“會越聊越歪”。王仕銳表示,患者的語言可以不夠簡潔,但只有回答AI提出的醫療問題,AI才能給出準確回應。
相比之下,春雨醫生布局更謹慎。5月,春雨醫生將大模型在線問診產品春雨慧問開放免費使用。不同于MedGPT開檢查單、給診斷,慧問在較少輪次問詢后會告知患者癥狀可能對應的多種疾病及對策,之后,以“如果您情況比較嚴重,建議您及時就醫,尋求專業醫生的幫助”為結束語。
“就像自動駕駛,很難一上來就做到完全自動駕駛,但我們是不是可以有自動停車、輔助倒車功能?這些功能本身也很好用,研發難度會低很多,對使用安全性的要求也會低很多。”對于暫時不做精準診斷和治療方案的原因,春雨CTO曾柏毅解釋說。
曾柏毅坦言,慧問更像是春雨在探索大模型運用場景過程中的一個實驗品,定位并不明確,“我們也想看市場里面用戶到底想要什么,愿意怎樣使用AI問診產品,會對AI提什么樣的問題。”后臺數據顯示,從5月上線到7月底,共有5000多人使用慧問,其中5%左右在使用過程中轉向了向真人醫生求助。曾柏毅稱,春雨在開發詢問過程更加詳細的AI問診產品,計劃用于真人醫生問診場景。
醫療大語言模型的另一落地模式是直接與醫院合作,和線下診療過程相結合。商湯智能產業研究院院長田豐對《中國新聞周刊》介紹,商湯與鄭州大學第一附屬醫院、上海交通大學醫學院附屬新華醫院合作,醫療大語言模型“大醫”的參數從十億到千億不等,已使用在一些醫院的隨訪過程中。田豐表示,基于大模型的隨訪系統比傳統的AI電話隨訪機器人,有更強理解力、更人性化的交互和更全面的信息收集能力。
7月6日,上海世博展覽館,2023世界人工智能大會上的中山眼科中心AI+醫療展區。圖/視覺中國
如何讓問診AI少出錯甚至不出錯,是所有研發團隊要解決的首要難題。
大語言模型的本質是通過統計分析預測對話中可能的下一個詞,存在生成不準確或誤導信息的可能性,但在嚴格要求準確性的醫療領域,AI的錯誤也意味著患者將承受風險。
2021年,密歇根大學醫學院研究人員發現,由美國電子健康記錄公司Epic Systems 研發的敗血癥AI預警系統沒能識別出67%的敗血癥住院患者,只識別出7%被醫生遺漏的敗血癥患者。Epic公司稱,漏檢與系統閾值有關,需要設置一個平衡患者假陰性與假陽性的警報閾值。
高質量數據是保證準確性的基礎。醫療大語言模型會被額外“投喂”醫學書籍、臨床診療指南、醫學論文等專業知識。其中最重要、也最難獲取的是優秀的真實問診數據,既包括頂級專家對該疾病的診斷記錄,也包括患者身體特征、檢測數據、家族史、環境信息等多維度的信息,同時,還需要覆蓋各年齡層、性別、地域的患者。
多位受訪專家和從業者表示,已有問診數據尚不能完全滿足研發需求。國家遠程醫療與互聯網醫學中心醫學人工智能專家委員會主任委員、呼吸病學專家劉國梁告訴《中國新聞周刊》,即使能收集到目前醫院的臨床數據,其質量也未達到能夠用于AI訓練的水平,需要專門去生產符合AI訓練標準的臨床問診數據。
更多的臨床經驗可能未被記錄成文本。“特別是疑難病領域,很多知識是在醫生腦子里,甚至醫院里面可能也沒有,都是口口相傳。”曾柏毅說。
王仕銳介紹說,醫聯共使用三類真實問診數據,包括公開數據、醫聯獨有的問診數據,以及通過搭建專門的數據平臺收集的數據。對于第三類數據,醫聯從協會、醫院、專家處采集,“這一過程好像將石油從地底勘察并最終加工運輸到油箱,中間有漫長且復雜的工序。”
前述高校學者強調,數據質量對研究非常重要,但前提是要保障數據安全。對數據的采集、篩選必須建立在保護數據安全的基礎上,個人信息脫敏,保護患者隱私是首要步驟。醫聯、春雨醫生和商湯均表示對數據進行了脫敏處理,并在使用前取得了患者同意。
除了數據,模型設計也能提升醫療AI的準確率。田豐說,商湯成立了一支近百人的醫學專家團隊,參與數據標注、模型訓練及測試,保證AI能夠完成多輪問診、不回答患者非醫療問題等。商湯還訓練了一套“智能評判系統”,對大語言模型輸出的答案進行評判,讓模型輸出更符合臨床專業要求以及人類價值觀的回答。
不過,再怎樣調試醫療AI,其本身存在一定局限性。劉國梁認為AI與真人醫生最根本的差異在于,二者在診療過程中的原則可能不相同。目前尚不能確定AI在診斷時,是以患者生命長度為重要衡量,還是以更好的生命質量為先,抑或根本與人類福祉無關。一名優秀的醫生能夠在關注患者治療方案的同時,照顧其情緒、花費、家庭情況,目前醫療AI還難以做到。
另外,醫療AI主要依靠患者的問診數據,缺少查體過程。一方面,軀體類疾病可能會影響患者的感覺,使其表述出來的感受與病情嚴重程度不相符;另一方面,不同疾病也有相似癥狀,只靠詢問很難得到準確結果。
北京大學人民醫院骨科主任醫師薛峰告訴《中國新聞周刊》,很多醫學問題尚未有明確答案,許多醫生也是依靠經驗,達不到100%的準確率,更何況依靠人類經驗來進行推理的AI,“現階段讓它來看病只是作為一種咨詢、一種輔助,最后判斷還是要交給真人醫生,AI還需持續學習和調優”。
多位受訪從業者、專家均表示,AI并不可以、也不可能取代醫生,不應有處方權。一旦涉及診斷、開處方,必須有真人醫生參與其中,否則就會面對“AI看病看錯了,到底是AI負責,還是AI開發公司負責,抑或是購入AI產品的醫院或醫生負責”的難題。當AI與醫生意見不符合,比如患者希望按照AI建議做非常昂貴,但醫保不報銷的檢查,醫生覺得沒有必要時,也可能出現倫理問題。
據《華爾街日報》今年6月報道,在加州大學戴維斯分校醫學中心腫瘤科,護士梅麗莎·畢比和癌癥患者打了15年交道。當AI預警系統提示她的一名患者有敗血癥時,她確信警報是錯的——因為AI不知道,白血病患者也會表現出類似敗血癥的癥狀。
按照醫院規定,畢比可以在獲得醫生批準后推翻AI的診斷,但如果她錯了,她將面臨處分。最后,她只好按照AI的診斷給病人抽血檢查,即使這可能會讓病人進一步感染,也會讓其治療費用更高。
未來臨床實踐將怎樣保證醫生參與監管AI?薛峰表示有兩種設想:一是仍然由醫生負責開處方,AI只負責前期詢問及信息收集;二是由AI開處方,但醫生需要審核治療方案,至少保證藥物無害并簽字,若出現問題,仍由簽字醫生負責。
6月末,醫聯在成都舉行了一場“雙盲實驗”,讓MedGPT與10位四川華西醫院的主治醫生一起對120余位患者進行診斷,來評測AI與真人醫生的一致性,最后由多位專家對91份有效病例審核。劉國梁與薛峰都參與了此次審核,二人表示MedGPT的效果比預期稍高,沒有出現太大錯誤,但也存在一些問題。
薛峰表示,MedGPT在面對復雜病情時的問診邏輯還很簡單。他解釋說,每一種疾病往往會有一組癥狀,單一癥狀對應的疾病可能有幾十種、上百種,而患者在表達主訴時往往只會說到其中一兩個最嚴重的癥狀。做排除診斷時,真人醫生能夠不斷就可能的關聯癥狀進行提問,最后根據患者回答作甄別,而MedGPT在關聯不同癥狀的全面性上還有不足。
王仕銳稱,醫聯的下一步除了提高準確率,還會整合多模態能力,彌補不能進行查體的缺陷。比如給MedGPT“裝眼睛”,以視頻方式做運動軌跡識別,解決骨科查體難題。谷歌在7月末推出新的通用生物醫療AI模型Med-PalM M,除了回答醫療問題,Med-PalM M還可檢查X光圖像,甚至掃描 DNA 序列是否存在突變。
擺在問診AI面前的問題,還有監管。此前,國家藥監局器審中心發布的《人工智能醫療器械注冊審查指導原則(征求意見稿)》等文件規定,基于醫療器械數據、使用人工智能技術實現其預期用途的醫療器械,需要經藥監局審批上市。醫療器械數據包含圖像數據、生理參數、體外診斷數據等,電子病歷、醫學檢查報告的結果文本等屬于非醫療器械數據。
以MedGPT為例,雖然主要依靠患者主訴信息,但是也會給患者開檢查報告,基于血糖、血壓等數據來推薦治療方案。王仕銳表示,在當下的監管體系中難以界定其是否屬于醫療器械,對此類新型產品,相關部門可能會有新的監管框架。
7月13日,國家網信辦聯合六部門公布《生成式人工智能服務管理暫行辦法》(下稱《辦法》)。《辦法》自2023年8月15日起施行,其中提到鼓勵生成式AI創新發展,并要求“具有輿論屬性或者社會動員能力”的產品,向公眾提供服務前,需開展安全評估,并履行算法備案。基于生成式AI的問診產品是否要申請安全評估和算法備案,多家企業說法不一。前述學者表示,該《辦法》為醫療AI設定了合法合規的框架,但針對醫療AI的監管如何實施,標準如何制定,《辦法》還未明確。
“標準化最關鍵的、最本質的目的就是建立最佳秩序。”該學者說,為創新產品制定標準是一個緩慢的過程,到底怎么定、定多高需要不斷摸索。多位受訪從業者都表示從研發到進入臨床,醫療大語言模型還有很長一段路走,但也都認可AI一定是未來醫療格局的一分子。
AI可以使醫療模式轉向社區化、家庭醫生化。薛峰表示,門診中90%以上都是常見病,可以通過家庭醫生來解決,但目前醫療資源并不均衡,三甲醫院與基層醫院醫療水平相差過大,導致患者對社區醫院不信任。
薛峰說,若AI成為面向患者的家庭醫生,患者通過預先咨詢AI,可為醫療機構減輕負擔,同時也增加對病情的初步了解,找準看病方向。“這樣的醫療模式有助于醫療規范化,減少過度醫療或醫療欺騙。”薛峰說。
在面向醫生的場景中,AI的作用可以更多。多位受訪專家表示,AI可以成為助手,幫助醫生學習疑難雜癥的前沿治療方案,減少誤診率,亦可參與醫學培訓,幫助年輕醫生及醫學能力不足的基層醫生成長。美國波士頓的一家醫療機構已開始使用ChatGPT來培訓規培生。“因為醫學訓練有時候不存在對錯,而是鍛煉醫生的思維方式、結果解讀、溝通等,可以(用AI)單獨去訓練這些能力。”劉國梁說。
更直接的可能性是AI能使醫生從文書的工作中獲得解放。浙江某三甲醫院的一名規培醫師告訴《中國新聞周刊》,接收新病人時會花費不少時間寫首程診斷。今年2月開始,他嘗試讓ChatGPT幫他寫鑒別診斷,“因為有時候診斷都很明確了,還要絞盡腦汁去想鑒別診斷也挺煩。我會直接把問題拋給ChatGPT,告訴它我想寫某兩種疾病的簡潔診斷,它會給我列出好幾點。”
未來醫療到底會怎樣,微軟全球資深副總裁彼得·李與兩位合著者在《超越想象的GPT醫療》中描繪了一種新的醫患關系:傳統醫學中醫生與患者是一對雙向關系,但現在我們應該轉向一種全新的三方關系,而AI是這個三角關系的第三支柱。
發于2023.8.21總第1105期《中國新聞周刊》雜志
作者:董慧