AI可以是殺戮的武器,也可以是救世的良方
本文主要講述了吳恩達團隊最新成果——用深度學習來改善臨終關懷服務,希望可以給你帶來啟發和思考。
上周,在日內瓦舉行的聯合國特定常規武器公約會議上,伯克利大學教授Stuart Russell向大眾發出了警告:基于AI的殺人機器人將會對人類造成極大的威脅。
與此同時,吳恩達所在的斯坦福團隊又將AI在醫療領域的作用往前推進了一不。與此前的“AI看片”不同,這次,吳恩達希望利用深度學習技術,為那些身患絕癥、時日不多的病人,更好地提供臨終關懷服務,讓他們更有尊嚴地度過剩下的日子。
聽起來似乎有點不可思議,那么吳恩達團隊到底是怎么做的呢?下面的這篇論文或許可以給我們一些思考和啟迪。
摘要
為住院病人提供更高質量的姑息治療一直是醫療保健機構的重點工作之一。研究表明,醫生們往往會過高估計預后效果,加之治療手段的慣性,導致病人實際得到的姑息治療不如預期。為此,我們提出了一種解決方案:利用深度學習的技術加上電子健康檔案(EHR)數據。目前一家學術醫療中心已得到機構審查委員會的批準,正在對這種方法進行試驗。算法會自動評估住院病人的EHR數據,幫助姑息治療懷團隊判斷哪些病人可能需要姑息治療。該算法實際上是用病人先前的HER數據訓練出來的一個神經網絡,它可以預測出病人由于各種原因在3至12個月內死亡的幾率,以此作為是否為其提供姑息治療的一個指標。我們的預測可以讓姑息治療團隊以積極主動的方式找到此類病人,而不是依賴主治醫師的推介,或花時間研究所有病人的病例。另外,我們還提出了一種新的解釋方法,用以詮釋模型作出的預測。
引言
研究表明,大約80%的美國人希望能在自己家中度過生命的最后時光,但是如愿的只有20%。事實上,超過60%的死亡發生在醫院的急診病房,而病人在臨終前的最后一段時間會接受侵入性治療。在過去10年間,可以提供姑息治療的醫院一直在增加。在2008年,全美所有病床數超過50張的醫院中,有53%的醫院設有姑息治療團隊,2015年這一比例已攀升至67%。雖然可以提供姑息治療的醫院越來越多,但是根據國家姑息治療登記處(National Palliative Care Registry)的數據,在所有需要接受姑息治療的病人(占所有住院病人7% – 8%)中,只有不到一半的人真正接受了這種治療。造成這種情況的主要原因是姑息治療專業人員的短缺以及缺乏讓醫療系統聘用這些人員的激勵措施。通過相關技術我們可以高效地識別出最需要姑息治療的病人,但是在現有治療模式下人們可能會忽視技術的應用。
在本文中,我們主要從兩個角度探討這個問題。首先,醫生不推薦病人接受姑息治療的原因有很多,例如:對病情的預估過度樂觀、時間壓力或治療慣性。這可能會導致病人在臨終前無法按照自己的意愿生活,反而接受過度的侵入式治療。其次,姑息治療專業人員短缺嚴重,這使得通過人工審查病例的方法對候選病人進行篩選既昂貴又耗時。
人們可能很難明確地規定一個標準,用來判定哪些病人能從姑息治療中獲益。在本論文中,我們使用深度學習算法對住院病人進行篩選,識別出最有可能需要接受姑息治療的病人。該算法處理的是一個代理(proxy)問題:預測某一病人在未來12個月內的死亡幾率,根據預測結果作出關于接受姑息治療的建議。這樣姑息治療團隊就可以根據病人的EHR數據作出客觀的建議,幫助抵消主治醫師潛在的診斷偏差,而且還不需要人工對每個病例都進行審查。當前用于識別此類病人的工具存在一些局限,我們會在下一部分進行討論。
相關工作
準確的預后信息對病人、護理人員和臨床醫生都是有價值的。一些研究表明,臨床醫生一般都對自己的絕癥患者的預后效果估計過于樂觀。這里有幾種解決方案試圖使病人的預后信息更加的客觀和智能化。在這些解決方案中,許多都是根據患者的臨床和生物學兩種參數來構建模型產生一個評分,而這個評分可以用來估計預期的存活率。
用于姑息治療的預后方法
姑息性表現尺度是針對姑息治療,修改了人體機能狀態量表(KPS)而發展得來的。它是基于例如活動度、活動能力、自理能力、食物和體液攝入量、意識狀態等可觀察因子來計算的。姑息性預后評分(PPS)也是為姑息治療制定的一種評分機制,它的重點是放在晚期癌癥患者身上。PPS是基于以下的變量來進行多元回歸分析計算:臨床預測生存期(CPS)、卡氏評分(KPS)、厭食、呼吸困難、總的白細胞數量(WBC)和淋巴細胞百分比。而另一種與PPS在相同時期內發展起來的指標,姑息預后指數(PPI),也是基于性能狀態指標進行了一個多元回歸分析來得到了評分,例如口服攝入、水腫的基礎得分、休息時呼吸困難和譫妄(急性腦綜合征)。這些分數難以在大規模上進行實現,因為它們涉及面對面的臨床評估,涉及臨床醫生對生存者狀態的預測。此外,這些評分的目的是在姑息治療中來使用,而那時病人已經處于疾病晚期階段,不能達到更早鑒別他們疾病狀態的目的。
加護病房ICU的預后方法
也有一些常常用在ICU上的預后評分模型。APACHE-II評分(急性生理、年齡、慢性健康評測)是用來預測ICU中危重住院患者住院死亡危險程度的。這種模型最近已經被APACHE-III改進了,主要是細化了評分項,采用了ICU入院之前的諸如主要的內科和外科疾病分類、急性生理異常、年齡、原有功能的局限性、主要的合并癥和治療地點等因素。另一個在ICU中常用的評分系統是簡化急性生理評分,也稱作SAPS II,它是根據病人的生理和潛在疾病這些變量來計算的。當病人已經轉入ICU時,雖然這些評分對治療組來說是有用的,但是他們在確定患者是否是有長期死亡風險的方面是有限的。但是這些評分仍然能夠讓他們對其目標和價值進行有意義的討論,以便他們確定另一種護理方式。
早期識別的預后方法
為了盡早發現絕癥患者,為其制定一個臨終的計劃并確保其有意義,現在這方面已經有許多的研究和開發的方法了。CriSTAL (適當的照顧和養護篩選標準)就是一種用來確定老年患者是否接近生命的盡頭,以及量化在住院時的死亡風險或出院后不久的死亡風險的方法。為了識別瀕死的病人,CriSTAL 提供了一個采用十八個預測因子的檢查表。
CARING是一種用于識別可以從姑息治療中獲益患者的方法。其目標是使用六個簡單的標準來判斷1年內有死亡風險的患者。PREDICT也是基于六項預后指標,這些指標是從CARING中提煉出來的。該模型根據976名患者的情況建立的。
Intermountain死亡風險評分是一種基于實驗室常規檢查的針對所有原因進行死亡率預測的評分機制。該模型提供了30天、1年和5年死亡風險的評分,它的訓練集包含71921人的數據,測試集包含47458人的數據。
大數據時代的預后信息
醫療保健系統中電子病歷系統的普及和針對高維數據方面機器學習技術的進步,為我們在醫療上作出貢獻提供了一個特殊的機會,特別是在疾病預后方面。上面描述的所有方法,以及我們所回顧的方法,至少有以下缺陷之一。他們都是采用了規模較小的數據集(僅限于特定的研究或一群人),或用太少的變量(故意使模型簡單化,或是為了避免過擬合),或模型太簡單而不能捕捉人類健康的復雜性和微妙之處,或者局限于某些亞群體(根據疾病類型,年齡等)。而我們在這篇工作中解決了這些限制。
方法
姑息治療團隊在很大程度上不清楚疾病的類型、階段和嚴重程度(病人是否被送入加護病房進行治療)以及病人的年齡等要素,我們從他們的角度探討了如何預測死亡率的問題。我們采用一種由數據驅動的方法,構建了一個考慮每位病人EHR(長時間內的病例)的深度學習模型,并且確保分析不會局限于任何亞群體或類同的群體。我們要解決的問題是識別需要接受姑息治療的病人,為了是這一問題便于處理,我們使用了下面這個代理(proxy)問題陳述:
給定某一病人和日期,使用該病人上一年的EHR數據,預測其在自該日期起的12個月之內的死亡率。
我們將這個問題看作為一個二分類問題,然后通過構建深度學習監督模型來解決。我們的目標不只是構建出可以很好地解決上述問題的模型,我們還希望探討該模型在解決以下這個子問題(即:預測住院病人的死亡率)時的表現。因為姑息治療工作者往往更容易介入住院病人的治療。
為監督學習構建數據集
我們將已登記死亡日期的病人作為positive實例,將其他病人作為negative實例。然后,我們將病人的預期死亡時間作為分界點,將健康檔案上的時間線劃分為虛擬未來(virtual future)和過去事件。我們利用每位病人在虛擬過去(virtual past)的數據來預測他們在未來3-12個月內的死亡幾率。注意:在定義預測日期時,必須避免違反常識性的限制條件(見下文),不然的話標簽就會無效。我們只針對可以在滿足這些約束情況的前提下找到預測日期的病人。
Positive實例:positive實例的限制條件的確定基于這一理論基礎:在死亡之前的3-12個月內被推薦接受姑息治療的病人最能從中獲益。我們認為在病人死亡前的3個月內對其進行死亡幾率預測為時太晚,因為病人在接受姑息治療前需要一定的籌備時間;這一時間超過12個月也不可行,因為預測病人在很長時間范圍內的死亡幾率非常困難。更重要的是,姑息治療介入協助是有限的,最好主要用于滿足較為迫切的需求。
Positive實例的預測日期必須滿足以下限制條件:
- 預測日期必須為記錄在案的問診日期。
- 預測日期必須至少比病人死亡日期早 3 個月(否則死亡日期會太靠近預測日期)。
- 預測日期最多只能比病人死亡日期早 12 個月(否則死亡日期會離預測日期太遠)。
- 預測日期必須比首次問診日期至少晚 12 個月(否則病人就沒有足夠的歷史數據來作為預測的依據)。
- 預測對象最好為住院病人,前提是他們必須滿足上述條件(因為相較于其他類型的病人,住院病人更愿意接受姑息治療建議)
- 預測日期必須早于滿足上述限制條件的其他所有候選日期。
negative 案例:對于negative案例(未記錄死亡日期的病人),必須確保案例中的病人在自預測日期起的 12 個月內沒有死亡。我們選擇的預測日期必須滿足以下所有條件:
- 預測日期必須為記錄在案的問診日期。
- 預測日期必須至少比最后一次接觸病人的日期早 12 個月(以避免發生拍攝 EHR 快照后死亡日期不明確的情況)。
- 預測日期必須至少比首次問診日期晚 12 個月(否則無法獲得足夠的歷史數據)。
- 預測對象最好為住院病人(優先于其他類型的病人),前提是他們滿足上述限制條件(作為 positive 實例的對照組)
- 預測日期必須早于滿足上述限制條件的其他所有可能候選日期。
圖 1. 以病人存活圖表示右刪失長度
- 縱坐標:病人比例;橫坐標:天數
- 紅線:死亡病人(死亡前存活的天數)
- 綠線:存活病人(確認存活時間)
- 黑色虛線:分割線
- 藍色虛線:最少存活時間
住院病人(admitted patients):預測日期與住院日期相對應的病人為住院病人,其余病人為非住院病人。(注意:非住院病人治療歷史中可能還有其他記錄在案的住院經歷)。對住院病人的預測日期進行再調整: 將住院后的第二天作為預測日期。這樣做的理論根據是:在住院后的24小時內,醫院通常會用最新的數據(初步檢測數據、診斷數據等)對病人記錄進行更新,住院后的第二天更適合作為預測日期。注意:住院病人是本試驗所有病人的一個子集(而不是一個單獨的數據集)。positive實例和negative實例都對預測日期后收集的所有數據進行審核。
表1:病人人數的劃分
圖2.? 預測時病人的年齡
特征提取
我們將每位病人的預測日期之前的12個月作為觀察期。在每位病人的觀察期內,我們使用ICD9(國際疾病分類第9修訂版)診斷和計費編碼、《當代操作術語集》(Current Procedural Terminology,CPT)操作編碼、RxNorm處方編碼以及觀察期內的醫患接觸來生成特征。
我們按照以下方法生成特征。為了捕獲數據的縱向性質,我們將每位病人的觀察期劃分為4個觀察階段,表III顯示了這四個階段與預測日期(PD)的對比,階段1最靠近預測日期,階段4離預測日期最遠。我們對各觀察階段分配不均勻的時間長度,目的是為了讓模型更多關注靠近預測日期的數據。在每個病人的各觀察階段中,我們記錄了每個編碼類別中的每個編碼出現的次數(開處方、計費等)。我們將這些編碼出現的次數作為一個單獨的特征。
我們還考慮了病人的人口統計數據(年齡、性別、種族、民族)以及觀察期內各編碼類別的匯總數據(如下所示):
- 類別內特殊編碼出現次數。
- 類別內編碼出現的總次數。
- 在任一天所分配的編碼的最大數量。
- 在任一天所分配的編碼的最小數量(非零)。
- 一天內分配的編碼的數量范圍。
- 一天內分配的編碼的數量均值。
- 一天內分配的編碼的數量方差。
我們將所有這些特征(各觀察階段中編碼出現的次數,觀察期內各類別的匯總數據,以及人口數據)連接起來形成特征集。在特征集中,我們去除只在100或少于100位的病人群體中出現的特征。最后得出的特征集共有13654條特征。在這些特征中,每位病人平均有74個非零特征值(標準差為62),最多有892個特征值??偺卣骶仃嚨南∈柚荡蠹s為99.5%。
圖3.?在測試集數據上模型輸出概率的可靠性曲線(標定線)
- 縱軸:positive實例的比例;橫軸:預測值均值
- 虛線:校準線
- 藍線:所有病人(0.042)
算法和訓練
我們的模型是由一個輸入層(13654個維度)、18個隱藏層(每層 512 個維度)和一個標量輸出層構成的深度神經網絡(DNN)。我們在輸出層應用邏輯損失函數(logistic loss function),在模型每層上都應用縮放指數線性單元(Scaled Exponential Linear Unit ,SeLU)。我們使用 Adam optimizer?和大小為128個樣本的 mini-batch?對模型進行了優化。然后,我們對每250 個mini-batch迭代提取中間體模型snapshot(Intermediate model snapshots),選擇在驗證集上表現最好的snapshot作為最終模型。我們發現沒有必要進行明確的正則化操作。通過對各種網絡深度(從2到32)和激活函數(tanh、ReLU和SeLU)進行廣泛的超參數搜索,我們得到了最終的網絡架構。
評估
由于數據是不均衡的,將準確度作為評價指標是不可行的。在不均衡問題中ROC曲線有時可能會有誤導作用。因此,我們使用平均準確度(AP)分數作為評價指標,也稱為模型選擇AUPRC曲線( Area Under Precision-Recall Curve )。
結論
在本節中,我們將根據在驗證集上獲得最好AP分數選擇的模型,來給出在測試集上獲得的技術評估結果。我們觀察到模型根據0.042的Brier score進行了合理的校正(如圖3所示)。在我們感興趣的高閾值的規則下,該模型在估計概率方面是一個比較保守(顯得信心不足)的模型,但是這應該不會有什么壞的影響。
圖4是插值精度召回曲線( Interpolated Precision-Recall curve)
- 水平虛線表示0.9的精度水平。
- 垂直虛線表示曲線達到0.9精度時的召回率。
圖5是模型在測試集上表現情況的受試者工作特性曲線(ROC)
插值精度召回曲線如圖4所示。該模型的AP評分為0.69(入院病人為0.65)。早期召回這個結果是可取的,因此可以認為在精確為0.9時召回是一個度量指標。該模型在0.9的精度上實現了召回率為0.34(入院病人的召回率達到0.32即可)。受試者工作特性曲線如圖5所示。該模型實現了0.93的正確率(0.87即可判定是患者)。ROC和精密召回圖都顯示出,該模型顯示出強烈的早期召回行為。
定性分析
值得一提的是,預測死亡率是確定能從姑息治療中獲益病人的一個代理(proxy)問題。為了評估模型在原始問題上的性能,我們檢驗了高輸出概率的假陽性患者情況。我們注意到,雖然這樣的患者并沒有在他們的預測日期12個月內死亡,但是他們經常被診斷為疾病晚期和/或需要高標準的醫療服務。這在第五節所示的陽性和假陽性例子中可以看到。
在達到精度為0.9的患者中,姑息治療小組對其中50個隨機選擇的患者進行進行了圖表檢查,發現所有這些人在其預測日期內都適合轉診,即使他們存活了一年多。這表明,在解決代理(proxy)問題方面,死亡率預測是一個合理的(和易處理的)選擇。
隨機陽性患者高概率評分的預測解釋。表格僅顯示導致概率的下降的因素。
隨機陽性患者高概率評分的預測解釋。表格僅顯示導致概率的下降的因素。
論文地址:https://arxiv.org/abs/1711.06402
翻譯:AI科技大本營(ID:rgznai100);參與:尚巖奇,劉暢
譯文地址:微信公眾號“AI科技大本營”(ID:rgznai100)
本文由 @AI科技大本營 授權發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自 unsplash
超贊