怎樣從臟亂差的醫療大數據中提取價值(二)
編輯導語:上期講到了隨著大數據時代的到來,醫療信息化建設迫切的需求與醫療大數據的溯源過程,還深入的提出了在臟亂差的醫療大數據中怎么發現價值;接下來我們再進一步探討一下數據的價值與特征。
一、數據特征
1)數據異構
多平臺,多種接口,數據類型沒有一個標準,只能是點對點的對接大量數據,內容冗雜,過程繁復,速度緩慢。
2) 主題分散性
就診信息分布在不同的平臺上,不能夠形成以患者為中心的所有電子化就診信息集成,不能提供完整、全面、準確、及時的患者臨床信息。
3)數據量大
在大數據背景下,行業應用的數據量通常都以億級別計算,存儲通常在TB/PB級別甚至更多。
4)數據多態
數據模型在數據出現之后才能確定,數據模型隨著數據量增長不斷演變。
二、數據價值
數據流通:
- 院內流通、院外流通;
- 例如:從信息科流通到臨床醫務人員,從醫院流通到衛生管理部分,從省內醫院流通到省外醫院。
數據開放:
- 面向個人:如查閱報告、健康評估、健康檔案等;
- 面向企業、政府:調閱病理取證、獲取群體用藥信息、醫療數據監管等;
數據挖掘:
- 科研:科研統計分析和深度挖掘,如療效分析等;
- 臨床:如手術風險評估、預測模型建立等;
- 其他:醫院管理、趨勢分析等
三、數據產品
產品的定義:
建立數倉產品需依據衛生部統計信息中心2011年發布的《基于電子病歷的醫院信息平臺建設技術解決方案》建立標準化醫院數據資產目錄。
數倉需以醫院基礎業務活動為索引,提供HIS、LIS、EMR等多數據源業務表字段綁定規則;實現零代碼綁架,業務人員即可通過頁面配置綁定規則。
數倉將根據配置自動生成調度任務,并通過Hadoop生態圈sqoop技術實現對業務系統的數據抽??;提供全量數據抽取與增量數據抽取兩種方式,抽取過程實現透明、可追溯。
解決的問題:
- 實現以患者為中心的醫療信息采集、清洗、存儲、加載和決策輔助。保障原始數據來源追溯、主數據標準唯一、數據應用及時高效。
- 實現基于數據中心的全量數據,構建應用主題庫,為醫院臨床輔助、精細化運營管理、科研管理提供強有力的數據支撐。
- 實現“數據湖”數據資產目錄,提高數據價值。
- 實現億級別數據量查詢、統計、分析秒處理展示。
四、產品功能
數據集成:
院內分散、異構數據依據頤東數倉資產目錄表字段規則映射,并通過ETL工具實現歷史數據、實時數據抽取轉換。業務系統或集成平臺之間進行數據字典與碼表的映射轉換,解決系統之間的數據一致性問題。新舊系統切換或系統升級,歷史數據在新編碼體系和分類體系下的轉換和對接。
數據稽查:
用戶可以根據需求上傳需要比對的數據及相應標準,通過軟件對數據進行一致性和準確性稽核。
疾病稽查:
藥品稽查:
醫療知識庫:主數據管理
疾病、手術標準:
五、產品應用
1)數據治理
數據治理是治理多元異構的數據,治理數據資產,突出醫療價值,確保數據質量控制數據治理的過程要確保數據的完整性(事件、表單、記錄、表項),一致性(主數據一致性、邏輯一致性),唯一性(無二義冗余、指標及計算口徑),及時性,原始性,可溯源性及可測量性。
解決的問題:數據重復、一碼多病、數據雜亂、臟數據多
治理的方案:通過數倉產品建立院內數據資產目錄索引大數據中心
2)大數據中心
3)數據集市
根據臨床科室構建應用主題庫,為醫院臨床輔助、精細化運營管理、科研管理提供強有力的數據支撐。
4)數據上報
解決針對衛計委統計信息中心以《江蘇省健康信息平臺共享數據集》為基準上傳的數據的數據稽核與表結構轉換。
5)精準治理
單病種科研知識庫,輔助治理。
六、產品特性
1)多種數據源
支持多種數據源,一鍵接入,無需繁瑣配置。
2)零代碼
簡單易用的用戶體驗,零代碼建立傳輸任務,降低企業用戶使用門檻。
3)實時融合
實時的數據融合與集成,不讓延遲成為瓶頸,保證數據的時效性。
4)開箱即用
簡單快速的安裝流程,高效部署生產環境,即裝即用。
5)錯誤隊列預警
群集監控、故障排除、擴容擴展、應急處理,完善糾錯與預警機制。
6)安全審計
數據審計、數據盤點、權限認證、隱私處理。
7)全程質量管控
高質量體系保障數據傳輸的安全性與準確性,真正實現數據無憂。
8)數據服務
開放接口,開放數據,開放服務,支持第三方嫁接服務。
9)大數據生態系統
Hadoop生態系統中集成了大量的工具和組件來滿足不同計算和存儲需求,比如HDFS分布式文件系統、HBase列式數據庫、Hive數據倉庫、Kafka服務編排、MapReduce服務調度、impala類SQL數據倉庫等,可以方便地進行數據存儲和分析計算。
產品技術架構:
數據倉庫(ETL) + 自然語言處理(NPL)+大數據技術(Hadoop)+安全通信(OAuth2.0、密碼學、CAS)
七、名詞解釋
CDC又稱變更數據捕獲(Change Data Capture),開啟cdc的源表在插入INSERT、更新UPDATE和刪除DELETE活動時會插入數據到日志表中;CDC通過捕獲進程將變更數據捕獲到變更表中,通過cdc提供的查詢函數,我們可以捕獲這部分數據。
ETL數據倉庫技術(Extract-Transform-Load),它是將數據從源系統加載到數據倉庫的過程。用來描述將數據從來源端經過萃?。╡xtract)、轉置(transform)、加載(load)至目的端的過程。使用到的工具包含(kettle、flume、sqoop)。
Kettle基于JAVA的ETL工具,支持圖形化的GUI設計界面,然后可以以工作流的形式流轉,在做一些簡單或復雜的數據抽取、質量檢測、數據清洗、數據轉換、數據過濾等方面有著比較穩定的表現。
Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。
Sqoop是Apache開源軟件,主要用于在HADOOP(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞;適用于能與大數據集群直接通信的關系數據庫間的大批量數據傳輸。
本文由 @CTO老王 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
- 目前還沒評論,等你發揮!