臨床大數據的產品應用與變現(一):醫院
大數據在各行各業的應用,給業態帶來了顛覆式的改變。那么,在醫療行業,大數據可以起到什么作用?
本文是《臨床大數據的產品應用與變現》的系列文章第一篇。
醫療大數據與人工智能項目近年來非常火熱,但是很多項目在變現過程中遇到一些困難,大家都明白醫療數據是一座金礦,但卻不知道應當如何去挖。導致這樣局面的因素很多,有歷史原因、法律原因、產業原因等多個方面。
- 從歷史原因來講,醫療數據特別是臨床系統獨立性高,產生的數據難以整合。各地醫院數據結構差異大,難以形成統一結構,各地方醫學用語也不規范,產生了大量的歧義。這是由歷史原因造成,當前正在通過制定標準逐步改善。
- 從法律原理來講,醫療數據的歸屬和使用問題始終是一個灰色地帶,數據權利游離在患者、醫院、衛健委之間,醫療數據利用存在患者隱私泄露的風險,所以很少有機構愿意承擔這樣的風險。醫療數據上云在各地實施情況也不同,當前大多數醫院能夠接受混合云的實現方案。
- 從產業原因來講,醫療行業是一個嚴謹不容出錯的行業,關系到人的健康或者生命,當前科技的發展還不足以能夠讓數據描述自然科學,也正因為如此使得醫療大數據行業變現受阻。
醫療數據含義非常廣泛,所有涉及人類健康的數據都可以稱為醫療數據,包括藥物數據、臨床數據、健康數據、生活飲食數據、運動數據等。本文只討論臨床數據的應用,對于藥物數據及其他數據的應用,在其它文章中進行討論。
一、臨床數據的應用場景及內容
臨床數據與藥物數據或健康數據不同,臨床數據的獲取具有極高的門檻,從這個角度來講數據本身就具有較高價值。換句話說,誰擁有了數據誰就擁有了發展臨床數據應用的絕對主動權。
當前臨床大數據主要服務于政府、藥企、醫院、保險四個類別。這四個類別用戶相對典型,本文僅以這四類典型場景用戶為例,說明臨床大數據的落地。
當然,這四個類別也經常聯動。例如藥企-醫院,就是一對典型的聯動體系,臨床數據同時服務于藥企與醫院才能構成完整的商業模式。
本文主要討論對醫院業務產品與服務模式。
二、對醫院的服務
臨床科研對醫院來講算是硬指標,醫生資格晉升、新療法、新藥的科研工作都離不開醫院。但是由于歷史原因,醫院系統獨立性高,各個地方醫院數據格式不同,難以將數據融合形成更大價值。所以,當前的主要認識是要按照一個確定的數據格式,先將醫院內部的數據打通,從而推廣到區域乃至全國。
針對臨床科研問題,分為三個部分可以獨立構成商業模式,也可以聯合形成整體商業模式。
醫療數據治理是一項大工程,也是醫療大數據應用基礎。衛健委在2019年出版了一本關于醫療數據治理的書籍,目的技術為了指導全國醫院進行數據治理工作。
1. 臨床數據治理
數據治理是一個非常復雜的過程,其中不僅僅是核心的技術領域,還有適當的數據保障機制及相應的組織架構。
數據治理的核心領域是針對主數據、元數據進行數據服務,其中包括數據質量、數據標準統一、數據安全等諸多方面;對應于構成這些要求需要有相應的保障機制,包括規則制度、數據服務組織、機制流程以及相應的技術規范。兩個方面相輔相成,是一個有機整體。
數據治理是指將數據作為組織資產而展開的一系列的具體化工作,是對數據的全生命周期管理。包括針對數據產生、存儲、加工、應用、刪除等全流程制定一系列組織架構、管理制度、操作規范、IT應用技術甚至績效考核等制度來規范約束的方式。
任何一個產品都是基于需求痛點而存在的,人工智能類產品并不例外,在產生大量數據的同時,我們需要將原有大量數據轉化為有序、可利用的數據資產。經過上述過程,才能夠利用人工智能技術來達到產品期望。將數據整合為數據資產的過程稱為數據治理。
數據治理的內涵有如下的描述數據治理是貫穿數據采集、匯聚、存儲、處理、加工、共享交換、應用開發和持續運營等整個生命周期的系統性工作,需要充分融合技術、管理和業務,從而確保數據資產安全并探索其商業用途。
數據治理的概念中,有3個基本問題需要了解。
- 數據治理的目標
- 數據治理流程
- 數據治理的應用
數據治理的目標是為了將數據轉化為數據資產,為實現更好的決策,減少操作摩擦,保護數據利益相關者的需求,構建標準流程并提高流程透明度。實現數據資源在各組織機構部門的共享;推進信息資源的整合,從而提升公司企業數據的有效應用。
數據治理不僅需要完善的保障機制,還需要理解具體的治理內容和數據規范、元數據管理及每個過程需要哪些系統或者工具來進行配合。治理后的數據具有一致性的數據標準,擁有良好的擴展性、可用性、靈活性。
數據治理的是一個復雜的過程,主要過程分為三個階段,每個階段的要求也不盡相同。
- 第一階段:數據的基礎管理,包括數據標準化的相關內容,術語的統一、分詞及代碼表的統一等。同時需要確定元數據管理方案,確定標準字段與抽取原則,整合數據字典與相關的技術工具。
- 第二階段:數據交換傳輸與異構化過程。在定義了相關數據規范與ETL工具之后,第二階段需要根據之前定義的方案進行數據處理。數據處理中包含主數據管理、數據質量管理、屬于交換與集成管理。第二階段的主要工作是數據異構化過程。
- 第三階段:數據治理的成熟階段。在這個階段已經完成了數據倉庫的整合搭建,并可以基于數據倉庫搭建一些應用,也可以進行數據挖掘的相關工作。
數據治理的應用其實就是數據的應用,只有治理過的數據才能較好應用。數據平臺可以提供計算、以及各個業務板塊的數據能力支撐。
首先我們解釋一下什么是元數據。
元數據(MetaData)是指用來定義業務數據的數據,也就是說元數據定義了業務數據的數據結構,各個任務之間的血緣關系等。更進一步講,所有能夠位置系統運行的數據都可以叫元數據。
元數據按照用途可以分為2類:技術元數據(Tehnical Metadata)與業務元數據(Business Metadata)。
- 技術元數據是管理數據倉庫使用的數據,用于開發與技術細節的統一。包括數據倉庫結構的描述、視圖、血緣關系、層級以及數據導出的結構定義等。技術元數據也定義了算法的度量、數據顆粒度等。
- 業務元數據主要從業務角度描述了數據庫中的業務數據,包括業務數據字典、對象和屬性名稱、數據來源以及數據分析方法與報表等信息。業務元數據從架構方面也可以分為上、中、下三層,上層指的是業務概念,中層指的是業務實體描述、下層指的是業務術語;技術元數據架構也可以分為三層,上層指的是系統、中層指的是技術對象、下層指的是字段名稱、表結構等。
元數據的治理關鍵在于規范性,主要分為2個步驟:元數據采集與元數據管理。元數據治理具有非常清晰的理論框架與技術框架,本節只是簡要介紹并不過多進行展開討論。
元數據采集分為技術元數據采集和業務元數據采集。
對于技術元數據,首先確定數據匯總后的元數據模型,各個系統中的數據結構不同,需要用元數據模型集中關聯在一起,這樣才能起到數據級聯的作用。
業務元數據的治理則相對復雜的多,主要由于各個業務系統的行業性所致。業務元數據治理中,需要規范業務定義、業務名稱、描述業務需要統一。
數據標準化是數據治理的必要過程,通過建立標準的業務詞典來定義業務用語。作者長期從事醫藥有關大數據及人工智能產品工作,曾經處理過同樣一個藥物在幾十個系統中擁有20多種名稱,這些問題都需要在數據治理過程中解決,否則對后期數據應用及人工智能產品構建影響極大。
高質量的數據企業的分析決策與業務發展至關重要,只有建立了完整的數據質量標準體系,才能夠有效提升企業整體數據質量。數據質量管理分為4大模塊:清洗模塊、稽查模塊、操作模塊、評估模塊。
- 準確性:準確性是指記錄的數據與事物或過程一致性。例如病例系統中病人人的性別、出生年月等數據的真實性。數據的準確性問題一般出自采集終端方面,所以在數據采集過程中進行數據多次核查十分必要。
- 及時性:及時性是指數據從產生到可以分析查閱的時間間隔,也叫延時時長。如果數據延時超出業務需求的時限,則可能導致數據毫無意義。例如要完成第一季度的銷售分析,但到第三季度才看到目標數據,那就會變得毫無意義。數據及時性的問題一般出在政策法規或者數據安全性方面,所以需要及時保證數據合規,做好數據加密脫敏工作。
- 一致性:一致性是指不同系統中收集的同一數據不能存在差異或相互矛盾。例如火車飛機的始發站應該具有同樣的站名,同一藥物的名稱一致。數據一致性與規范性問題往往同時存在,確保規范性是數據一致性的前提。
- 完整性:完整性指的是數據不能存在缺失的情況。例如今天門診人數為120人,但電子病歷只有110人的數據記錄。不完整的數據會影響數據質量,同時也影響數據特征的提取。數據的完整性問題大多發生在數據采集終端,由于人為因素或設備故障而發生的漏采集問題。
- 規范性:規范性是指數據存儲的標準化與規范性。標準有兩層含義,其一指的是以特定的格式約束數據,例如手機號碼必定是13位的數字;其二是指針對特定行業需要使用標準化術語對數據加以描述。當前醫療大數據被炒得十分火熱,筆者也是醫療大數據的從業者,深切地感受到缺乏統一的醫療術語標準給數據分析帶來的困難。同一種藥在不同的醫院的名字多達十幾種,如藥品“北京降壓0號”就存在“降壓0號”、“北京降壓0”等多種名稱。在構建產品之前,必須確定標準術語集才能使數據具有規范性與一致性。
- 唯一性:唯一性是指數據存儲與檢索的唯一性。一般來講,數據的唯一性在檢索中至關重要。例如一位公民只有一個身份證號。數據不唯一是系統級錯誤,需要對采集終端和整個系統進行排查分析。
數據質量的評估從以上6個方面展開,不過要注意數據的質量管控涉及到平臺底層、整體架構、存儲模式等很多方面的內容,結合行業特性綜合分析才能夠改善數據質量。
數據質量管理是一個流程化體系,在各個階段管理重點也不盡相同。
在系統需求討論與概要設計階段,需要明確數據質量的規則定義,也就需要明確需要什么樣的數據質量,這樣才能知道數據結構與需求邏輯設計;在開發階段需要確定數據質量規則的落實與實施;在上線后,需要實施數據質量監控按照評估維度進行數據質量評估,發現問題及時糾正。
數據生命周期管理(Data Life Cycle Management, DLM)是一種基于策略的方法,針對管理信息系統的數據在整個生命周期內的流動。從數據創建與存儲,經過一段時間流動直到過時被刪除。DLM產品的數據流動處理過程是自動化的,通常根據指定的策略將數據組織成各個不同的層,并基于關鍵條件自動地將數據從一個層移動到下一個層級。
數據的安全性是當今最熱點的話題,筆者從事的醫療大數據行業,數據安全一直最為首要的問題。世界各國已經立法保證數據安全,其中法案中比較嚴格的是2018年5月25日歐盟頒布的《一般數據保護法案》(General Data Protection Regulation, GDPR)。
GDPR規制的行為主要針對個人數據的處理行為。
個人數據包括姓名、身份證號碼、手機、定位數據等常規個人信息,同時也包括種族、生理、遺傳、健康、心理、政治觀點和宗教信仰等個人敏感信息。個人數據處理是指針對個人數據的任何操作行為,這必然也包括采用自動化方式的各種處理行為,如用戶畫像的自動獲取等。
商業方面來講,醫療數據治理本身就是一門生意,是所有臨床產品構建的基礎。
醫療數據治理通常來講需要保證底層數據庫不變,在底層數據庫的基礎上在搭建一套符合產品構建需求的數據體系。醫療數據治理可以與臨床科研平臺合并構成一個項目,買單方可能是醫院本身,也可能是醫院與藥企合作的項目。
2. 臨床科研平臺建設
有了數據治理的基礎,可以著手研發院內臨床科研平臺。臨床科研數據平臺是建立臨床實踐數據化的工具與復雜海量臨床數據管理和利用的平臺。臨床數據經過整理、清理、裝載、轉換等過程,形成了蘊含豐富臨床經驗和臨床規律的海量數據庫。
它是“真實世界臨床科研范式”的技術支撐,也是利用大數據實現臨床科研變革的有力工具。在循證醫學的基礎上,通過此平臺整合的不同研究中心、研究現場所產生的數據,形成蘊含內容極其豐富的大數據資源。臨床科研平臺屬于一個工程項目,平臺具有的功能應包含以下三個要點:
- 數據匯聚
- 多組協同
- 臨床科研特征
臨床科研平臺建設過程中將通過自動化智能化代替手工整理臨床疾病數據,完整集成病人院前院中和院后診療數據,實現對所有臨床數據的深度智能化挖掘利用。
平臺功能將有效促進醫院臨床研究發展和患者隨訪率,并大幅節省臨床醫生數據檢索所需精力,利用其數據開展各類臨床循證研究,可為優化和改進臨床實踐指南提供循證證據,并為轉化醫學研究提出新方向,同時利用“互聯網+”技術實現系統智能化隨訪,監測該院的高危人群病人和跟蹤疾病發展,提醒患者及時復診,更好的為患者服務。
該平臺建設還可促進區域臨床科研數據管理發展,通過建立多中心臨床科研數據中心,通過診療協同和信息共享,改善患者的診療結局;通過主動監測和隨訪,可以改善預后;也可作為衛生經濟數據分析,為醫療政策制定提供咨詢。
下圖是作者參與的北京某大型三甲醫院的醫療科研平臺建設方案。
從底層的架構來講以數據資源層為基礎,針對院內各個獨立的系統,在資源層上方構建數據治理與清洗層。
在數據平臺層,按照研究方向不同,按照臨床科研情況劃分為不同的子項數據組,通過數據洞察層融合多種算法以及機器學習等人工智能技術。應用層主要集成各類產品,通常是根據醫院的需求來制定。
3. 臨床科研服務
臨床科研種類繁多,針對已有數據開展的研究屬于回顧性研究。臨床科研服務與平臺建設和數據治理密切相關。數據治理是所有工作的基礎,平臺建設屬于臨床科研的軟件基礎,基于上述的基礎工作協助醫生進行臨床研究也是一項盈利模式。
利用以往數據進行的真實世界研究是一項典型的回顧性研究工作。近年來變得非常火熱,其對于藥企的經濟利益甚至超過其科研價值。
還有很多與臨床有關的服務內容,包括臨床入組篩查、單病種閉環管理、單病種的DRGs服務等內容,將在與藥企服務中討論。
4. 影像輔助診斷與CDSS
醫療影像的人工智能產品,我想大家都不會陌生。醫療影像是醫療數據的重要組成部分,也是人工智能產品應用中最成功的案例。
由于在影像數據數據的研究中,可以利用算力最大程度的降低對醫療知識的依賴程度,所以通過影像大量數據進行訓練后,可以得到影像的輔助診斷能力。影像類AI產品最重要的是圖像數據的獲取,有標注的、高質量的醫療影像成為各大公司能否勝出的關鍵資源。
圖像的AI處理技術方面,本文不再討論,都是非常成熟的技術方案,所有的瓶頸都在數據上。
影像診斷產品的商業模式方面并不成熟,當前最大的落地買單場景是醫生的加速工具,由政府+醫院+企業的PPP模式。這些與各地興建的醫療影像中心的合作模式相似,在山東濟寧就存集中的閱片中心,其中AI輔助產品作為加速閱片的工具之一。
臨床輔助決策支持系統(CDSS)一般指凡能對臨床決策提供支持的計算機系統,這個系統充分運用可供利用的、合適的計算機技術,針對半結構化或非結構化醫學問題,通過人機交互方式改善和提高決策效率的系統。
CDSS是提升醫療質量的重要手段,因此其根本目的是為了評估和提高醫療質量,減少醫療差錯,從而控制醫療費用的支出。臨床醫生可以通過CDSS的幫助來深入分析病歷資料,從而做出最為恰當的診療決策。臨床醫生可以通過輸入信息來等待CDSS輸出“正確”的決策進行選擇,并通過簡單的輸出來指示決策。
需要說明的是CDSS是一個大類系統的總稱,在CDSS中大概可以分為以下幾個類別,智能問診、輔助診斷、輔助檢驗、治療方案推薦、診斷質控、醫囑質量控制、醫學知識庫、藥學知識庫、處方審查等。
從技術上來講,CDSS所使用的技術主要是以知識圖譜以及自然語言處理兩大類技術為主。對于臨床知識圖譜的構建,已經在業界討論過很多。
根據不用的數據源,將疾病、藥品、適應癥、不良反應等數據相互聯系,可以構成一個相對完整的醫學數據支持系統?;跀祿姆e累與多元化發展,可以進行不同的AI能力訓練,構成問答機器人、處方審查等不同的產品。
從商業上講,CDSS的商業模式非常具有中國特色,在這期間涉及到幾個問題。
首先是醫療數據是否上云,對于這個問題每個地方每個醫院的看法都不盡相同。
第二個問題是中國醫療服務的總包模式。單純的CDSS系統很難售賣,通常只能夠包在大的醫療信息化項目作為一個模塊打包售賣,而總包商可能根本就不是一個軟件廠商,或可能是一個技術實施的運營商,每個企業都有自己的利益期望,所以項目的側重點也有所不同。所以,單純的CDSS還需要在整體信息化項目中實現變現。
總體來講,本文是系列文章的第一篇,對臨床大數據在醫院方面的工作做一個概括。
但是,臨床數據對醫院的服務不會獨立存在,必將與藥企、保險、政府疾控、社會健康團體等部門聯動構成橫向項目,這樣能才能構成有價值的商業模式。
下一篇將重點討論臨床大數據對藥企的應用。
#專欄作家#
白白,人人都是產品經理專欄作家。公眾號:白白說話(xiaob-talk)。醫藥行業資深產品專家,負責人工智能行業類產品綜合架構與技術開發。在行業云產品架構,藥物設計AI輔助、醫療知識圖譜等領域有深入研究。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議
醫療大數據建設是有側重點的,本文作者主要還是偏醫藥領域去理解醫院大數據,其實,從醫院、政府、科研機構等不同機構會有不同的視角,因此,對于數據處理的路徑也不盡相同。