基于電子病歷(EMR)的大數據知識挖掘
編輯導語:隨著互聯網的不斷發展,互聯網醫療信息化也不斷完善,如今電子病歷也已經廣泛運用了,用賬號進行登錄有助于病例的查找;本文作者分享了關于基于電子病歷(EMR)的大數據知識挖掘,我們一起來學習一下。
隨著醫療機構信息化建設的大力推進,電子病歷數據持續的海量增長,針對電子病歷數據的知識挖掘也應運而生;電子病歷記錄了病患就診的全過程,包含數字、圖像、文本等多種數字化信息。
項目從電子病歷應用場景出發,根據完整的醫療活動過程中不同的角色,分別從臨床醫療、教學科研、管理部門和病患四個角度進行需求分析;明確電子病歷的功能定位,挖掘出電子病歷中潛在的醫學規則和模式;一方面為醫務人員臨床診斷中提供決策支持,另一方面方便向大眾普及病癥知識,為疾病防治與健康醫療模式帶來改變。
一、核心技術
1.?數據清洗
1)隱私數據處理
電子病歷中包含患者的全部信息,對電子病歷的信息抽取涉及到患者隱私,因此需要將患者身份信息隱藏,僅保留研究相關的診斷信息,以保護患者基本權益不受侵犯。
2)主數據目錄(分詞、詞性、同義詞、相似詞)
首先保障數據的完整性、一致性與唯一性,自動分詞和詞性標注是文本挖掘的基礎,分詞和詞性算法的優劣直接決定了文本挖掘的效果。
首先融合權威詞表、官方標準,通過網絡盡可能完整地收錄醫學詞匯,構建醫學詞典,避免分詞錯誤;同時構建詞性標注集合,確保適應電子病歷的詞性體系;并結合基于統計和機器學習的分詞和詞性算法,對未登錄詞進行識別,提升電子病歷分詞和詞性效果;構建電子病歷分詞和詞性標準,為后續電子病歷的挖掘奠定基礎。
2.?數據抽取
抽取規則:多種表達式(業務活動、時間軸、病種、科室、地名等)
為了實現對電子病歷數據的有效組織和分析,基于電子病歷信息庫,在傳統機器學習模型上,使用基于七分位詞位標注集和復雜語言特征模板的條件隨機場,從電子病歷的文本中抽取實體。
基于深度學習模型,在人工標注電子病歷實體數據的基礎上,構建RNN、LSTM、LSTM-CRF和BERT等深度學習實體抽取模型。
在上述所構建的兩類實體抽取模型的基礎上,完成對電子病歷中實體的抽??;在本部分不僅完成對實體的抽取任務,而且會對所構建的實體抽取模型的整體性能進行縱向和橫向的對比,以確定最適合電子病歷實體抽取的模型;構建電子病歷的實體標注規范,并形成針對電子病歷的實體抽取模型。
例如:時間軸。
電子病歷具有顯著地時序性:病癥在不同診療階段具有明顯的差異;病人生命體征受時間規律影響;流行病的環境因素中時間因素也是重要的組成部分。
除了電子病歷生成時間、修改時間等顯示時間外,病歷中的隱式時間點及時間段推斷也是研究的重難點,對電子病歷時間維度上的研究也是電子病歷挖掘的重中之重。
3.?數據存儲
基于Hadoop大數據平臺搭建全文檢索引擎,實現海量結構、非結構化數據的高效存儲和檢索,提供更快、更優用戶體驗。
4.?數據倉庫
主要步驟包括:
- 命名實體識別,即在文本中找到關鍵詞,并能與文中所指的概念對應起來;如在某一文本中,不僅能通過基因符號識別出這個基因,也可以通過同義詞,或以往名稱識別出該基因。
- 信息抽取,基于語言結構的先驗知識(如自然語言中的主、謂、賓三元結構),通過自然語言處理方法,抽取出特定的動詞或名詞。
- 信息存儲,將抽取到的信息(數據)加載并轉存到標準化數據模型中,形成以患者為中心、醫院臨床信息系統(HIS、EMR、LIS、PACS等)無縫、連續和可互操作的集中式醫療大數據平臺;該過程中的數據抽取、轉化、加載稱之為數據倉庫(extract-transform-load, ETL)技術。
二、業務應用
1.?全文檢索平臺
當前,海量的電子病歷為醫務人員蘊藏了豐富的專業知識,卻也給循證醫學造成了阻礙。
其中大量非結構化的文本無法有效地進行信息查詢,主要存兩點問題:
- 數據庫無法存儲海量數據;
- 數據庫中非結構化數據查詢效率極低。
基于大數據技術,構建高性能數據存儲、分布式檢索和分析平臺,實現海量病歷文本高效檢索,為臨床醫療和教學科研等工作提供基礎保障。
2.?構建臨床循證知識庫(輔助治療)
知識庫是經過有機組織的知識集群,采用命名實體識別方法對電子病歷中疾病名稱、身體部位、癥狀、檢查項目、治療手段、藥品名進行抽取,形成實時更新的醫學實體庫及相關的醫療用語庫。
利用關系抽取方法,抽取出“癥狀-診斷”關系,“疾病-藥物”關系,形成可供推理的醫學知識圖譜;為臨床醫療提供決策輔助,加強藥物管理,實現精準用藥。
綜合利用大數據、機器學習、NLP和深度學習等技術,通過主訴+病史+AI輔助檢查檢驗結果構建單病種診斷知識圖譜,并提供大數據精準治理方案。
3.?定制電子病歷模板
由于電子病歷形式多樣,各個系統之間沒用統一的規范,嚴重阻礙了電子病歷的分析與利用,通過實體標準化技術將不規范的醫療實體映射為標準的醫療實體,為有效利用醫療數據掃除障礙。
形成醫務人員廣泛認可的實體標準,并統一定制電子病歷模板供系統開發商借鑒;在醫務人員培養過程中,加強醫療實體規范化,對電子病歷使用進行培訓和意見反饋,提升病歷質量。
4.?病癥分類模型研究
首先采用分類算法對不同科室的病歷建立分類模型,為病癥自動分診提供幫助;其次,電子病歷具有冗余性,通常為了確診需要檢查很多項目,無論檢查結果正?;虍惓6紩暾涗浽诎?。
病歷中除了提及的實體,還有用來修飾的定性詞或數字,如“{無}關節腫痛”,“體溫{37}度”等,這類定性詞或定量數值對疾病的診斷具有關鍵作用;通過建立分類模型能夠輔助醫生進行診斷,提高整體醫療水平。
5.?知識普及與推薦服務
基于醫學知識圖譜和患者既往病史向患者提供針對性的病癥知識普及服務,為病患了解自身疾病的相關信息提供權威、便捷的途徑,防止被互聯網錯誤信息誤導。
滿足病患對自身健康管理的需求,同時也消除了醫患之間的信息不對稱,這有助于緩解醫患之間的緊張關系,從根源消除醫患糾紛;采用基于內容和基于協同過濾的方法進行專家推薦,方便病患和醫生之間相互了解,也便于患者找到合適的醫生。
6. 疾病預測推演
根據確診病歷,統計病例數、性別比例、年齡分布、職業分布、手術率、好轉率、死亡率、并發癥、用藥情況及關聯的檢查檢驗等;在臨床治療方案的選擇中,可列出相關治療方案的比例,便于醫生進行比較分析臨床效果。
通過數據分析找到患病特點十分必要,除此之外,如果能將臨床描述性信息轉化為數字化臨床信息,將基因數據、臨床表型和疾病三者關聯起來;比如:任一臨床表型能同時找到與之相關的基因或蛋白信息,并通過這種方式指出疾病分子機制、耐藥性、推測預后等,這對于臨床醫生而言將十分有意義。
三、研究方法
文獻調研法:針對電子病歷的數據獲取和清洗、電子病歷的實體抽取,電子病歷的實體自動分類,通過文獻調研的方法搜集與電子病歷實體相關的研究,并從中汲取和借鑒相應的技術和方法,從而為完成本子課題的研究任務奠定堅實的基礎。
人工內省法:對電子病歷進行語料訓練并總結出實體分布的整體特征,人工對電子病歷實體進行類別劃分和訓練模型所使用實體知識的標注,都是基于人工內省的方法實現的;人工內省的方法為電子病歷多模態實體知識庫的構建提供了支撐。
機器學習與深度學習的方法:電子病歷多模態實體知識庫中傳統實體知識的抽取、深度學習實體知識的抽取、多個實體分類模型的構建均是通過機器學習和深度學習的方法實現的。
自然語言處理法:對電子病歷文本內容進行的實體的抽取、類別模型的構建中所涉及到的實體語言特征的分析、語言模型的構建,均是通過自然語言處理的研究方法完成的。
本文由 @CTO老王 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!