谷歌開發(fā)的醫(yī)療問診AI在醫(yī)療診斷上,達(dá)到甚至超過了人類初級保健醫(yī)生的表現(xiàn)
谷歌開發(fā)的一款“AI(人工智能)醫(yī)生”在與模擬病人的文本對話中表現(xiàn)出比初級保健醫(yī)生更高的診斷率和更強(qiáng)的同理心。
在近日上線的一篇預(yù)印本論文(未經(jīng)同行評議)《Towards Conversational Diagnostic AI》(邁向?qū)υ捲\斷人工智能)和一篇博客文章中,Google Research和Google DeepMind團(tuán)隊(duì)介紹了他們最新開發(fā)的AI系統(tǒng)AMIE(Articulate Medical Intelligence Explorer,表達(dá)清晰的智能醫(yī)療探索者)。研究者稱,這是首個(gè)專門用于對話診斷和獲取病史的對話型AI系統(tǒng)。
為了測試這個(gè)AI系統(tǒng),研究者設(shè)計(jì)了一項(xiàng)隨機(jī)雙盲實(shí)驗(yàn),受過培訓(xùn)的20名模擬病人與AMIE或20名獲得認(rèn)證的初級保健醫(yī)生進(jìn)行在線文本交流,模擬病人并不知道自己在與誰交流。研究者設(shè)計(jì)了類似于客觀結(jié)構(gòu)化臨床考試(objective structured clinical examination, OSCE)的測試。OSCE是一種現(xiàn)實(shí)世界中常用的評估,以標(biāo)準(zhǔn)化和客觀的方式檢驗(yàn)臨床醫(yī)生的技能和能力。這些病人一共模擬了149個(gè)臨床情境。隨后,他們評估了自己的問診體驗(yàn)。另有一組??漆t(yī)生參與評估了AMIE和初級保健醫(yī)生的表現(xiàn)。
評估結(jié)果是AMIE達(dá)到甚至超過了初級保健醫(yī)生的水平。初級保健醫(yī)生是國際上對基礎(chǔ)醫(yī)療服務(wù)提供者的統(tǒng)稱,最主要的形式是家庭醫(yī)生和全科醫(yī)生。
從專科醫(yī)生的角度看,在關(guān)于溝通和診斷質(zhì)量的32項(xiàng)標(biāo)準(zhǔn)中,AMIE在既往病史、清晰、全面等28項(xiàng)上的表現(xiàn)更優(yōu)。從模擬病人的角度看,在26項(xiàng)關(guān)于溝通質(zhì)量的標(biāo)準(zhǔn)中,AMIE在包括禮貌、傾聽、解釋病情等24項(xiàng)上的表現(xiàn)更優(yōu)。
AMIE診斷的準(zhǔn)確率更高。橫向?qū)Ρ華MIE和初級保健醫(yī)生分別給出的“top-k”鑒別診斷,AMIE準(zhǔn)確率均顯著高于后者。在醫(yī)學(xué)診斷中,當(dāng)評估一個(gè)病例時(shí),通常會(huì)產(chǎn)生一個(gè)診斷列表,top-k是指在這個(gè)列表中可能性最大的k個(gè)診斷。比如,醫(yī)生判斷最有可能導(dǎo)致患者癥狀的三種疾病或疾病組合,就是“top-3”。
此外,研究者發(fā)現(xiàn),AMIE更優(yōu)越的鑒別診斷能力主要來源于其更強(qiáng)的推理能力,它能更好地解釋信息以產(chǎn)生準(zhǔn)確、完整的鑒別診斷。而且它的信息獲取能力與初級保健醫(yī)生相當(dāng)。去年7月,谷歌團(tuán)隊(duì)在《自然》雜志發(fā)布了一款醫(yī)療問診AI Med-PaLM,表現(xiàn)已經(jīng)在個(gè)別維度上接近臨床醫(yī)學(xué)專家,但檢索和推理能力相對較弱。(參見財(cái)新網(wǎng)《多款醫(yī)療AI已問世,它們能否打敗人類醫(yī)生?》)
AMIE是如何開發(fā)的?據(jù)介紹,這是一個(gè)基于大語言模型(LLM)的研究型AI系統(tǒng),專門針對診斷推理和對話進(jìn)行了優(yōu)化。研究者使用了包括醫(yī)學(xué)推理、醫(yī)學(xué)摘要和臨床對話的真實(shí)數(shù)據(jù)集對AMIE進(jìn)行初始訓(xùn)練。
LLM是指用大量的文本數(shù)據(jù)進(jìn)行、旨在理解和生成人類語言的AI。風(fēng)靡全球的ChatGPT是個(gè)中代表。
但是,真實(shí)世界數(shù)據(jù)在訓(xùn)練醫(yī)學(xué)對話LLM上存在兩個(gè)局限。一方面,真實(shí)世界數(shù)據(jù)較為有限,往往無法捕捉到大量的醫(yī)療條件和場景,另一方面,從真實(shí)世界對話記錄中獲得的數(shù)據(jù)往往是嘈雜的,包含含糊不清的語言(包括俚語、行話、幽默和諷刺)、中斷、不合語法的語句和不明確的引用。
為了應(yīng)對這些挑戰(zhàn),研究者設(shè)計(jì)了一種讓AI自我對話(self-play)的方法。研究者引導(dǎo)AMIE扮演4個(gè)角色,分別是患有特定病癥的病人,富有同情心的醫(yī)生,判斷醫(yī)生和患者的對話是否結(jié)束的主持人,以及對病人與醫(yī)生的互動(dòng)進(jìn)行評估并提供反饋的批評者。
這個(gè)過程形成了內(nèi)外兩個(gè)循環(huán)。在內(nèi)循環(huán)中,AMIE利用語境中的批評反饋來改進(jìn)生成新的對話。在外循環(huán)中,一組調(diào)整好的模擬醫(yī)患對話被整合到之后的微調(diào)迭代之中。由此產(chǎn)生的新的AMIE版本可以再次參與到內(nèi)循環(huán)中,創(chuàng)造了一個(gè)良性的持續(xù)學(xué)習(xí)循環(huán)。
此外,研究者還采用了推斷過程的推理鏈(inference time chain-of-reasoning)策略,推理鏈指的是一系列有序的模型調(diào)用,每個(gè)調(diào)用都依賴于前面步驟的輸出。這一策略使AMIE能夠根據(jù)當(dāng)前的對話逐步完善其對話,從而得出一個(gè)有根據(jù)的回復(fù)。
研究者看重AMIE成為臨床醫(yī)生助手的潛力。在去年11月30日上線的預(yù)印本論文《Towards Accurate Differential Diagnosis with Large Language Models》(用大語言模型實(shí)現(xiàn)準(zhǔn)確的鑒別診斷)中,該團(tuán)隊(duì)成員介紹了AMIE的早期迭代版本。在診斷從《新英格蘭醫(yī)學(xué)雜志》(NEJM)臨床病理會(huì)議(ClinicoPathologic Conferences)中挑選出的303例疑難雜癥時(shí),AMIE單獨(dú)生成鑒別診斷的準(zhǔn)確率超過了無輔助的臨床醫(yī)生。有AMIE輔助的臨床醫(yī)生準(zhǔn)確率高于沒有輔助的臨床醫(yī)生和有搜索輔助的臨床醫(yī)生。此外,有AMIE輔助的臨床醫(yī)生得出的鑒別清單更全面。
盡管AMIE的表現(xiàn)非常優(yōu)秀,但研究者認(rèn)為應(yīng)該謹(jǐn)慎解釋這些結(jié)果。目前的研究是在線上文字溝通的場景下進(jìn)行的,這是當(dāng)下人類與LLM互動(dòng)的最主要方式,但臨床醫(yī)生可能對此并不熟悉,不能代表一般的臨床實(shí)踐。
研究者分析,從目前的研究過渡到可以使用的安全工具仍有許多重要的局限留待解決,包括真實(shí)世界限制條件下的實(shí)踐表現(xiàn),以及對公平、隱私、穩(wěn)健性等重要議題的探索,以確保技術(shù)的安全和可靠。
本文轉(zhuǎn)自于 財(cái)新網(wǎng)