怎樣從臟亂差的醫療大數據中提取價值(二)

0 評論 4537 瀏覽 19 收藏 10 分鐘

編輯導語:上期講到了隨著大數據時代的到來,醫療信息化建設迫切的需求與醫療大數據的溯源過程,還深入的提出了在臟亂差的醫療大數據中怎么發現價值;接下來我們再進一步探討一下數據的價值與特征。

一、數據特征

1)數據異構

多平臺,多種接口,數據類型沒有一個標準,只能是點對點的對接大量數據,內容冗雜,過程繁復,速度緩慢。

2) 主題分散性

就診信息分布在不同的平臺上,不能夠形成以患者為中心的所有電子化就診信息集成,不能提供完整、全面、準確、及時的患者臨床信息。

3)數據量大

在大數據背景下,行業應用的數據量通常都以億級別計算,存儲通常在TB/PB級別甚至更多。

4)數據多態

數據模型在數據出現之后才能確定,數據模型隨著數據量增長不斷演變。

二、數據價值

數據流通:

  • 院內流通、院外流通;
  • 例如:從信息科流通到臨床醫務人員,從醫院流通到衛生管理部分,從省內醫院流通到省外醫院。

數據開放:

  • 面向個人:如查閱報告、健康評估、健康檔案等;
  • 面向企業、政府:調閱病理取證、獲取群體用藥信息、醫療數據監管等;

數據挖掘:

  • 科研:科研統計分析和深度挖掘,如療效分析等;
  • 臨床:如手術風險評估、預測模型建立等;
  • 其他:醫院管理、趨勢分析等

三、數據產品

產品的定義:

建立數倉產品需依據衛生部統計信息中心2011年發布的《基于電子病歷的醫院信息平臺建設技術解決方案》建立標準化醫院數據資產目錄。

數倉需以醫院基礎業務活動為索引,提供HIS、LIS、EMR等多數據源業務表字段綁定規則;實現零代碼綁架,業務人員即可通過頁面配置綁定規則。

數倉將根據配置自動生成調度任務,并通過Hadoop生態圈sqoop技術實現對業務系統的數據抽??;提供全量數據抽取與增量數據抽取兩種方式,抽取過程實現透明、可追溯。

解決的問題:

  • 實現以患者為中心的醫療信息采集、清洗、存儲、加載和決策輔助。保障原始數據來源追溯、主數據標準唯一、數據應用及時高效。
  • 實現基于數據中心的全量數據,構建應用主題庫,為醫院臨床輔助、精細化運營管理、科研管理提供強有力的數據支撐。
  • 實現“數據湖”數據資產目錄,提高數據價值。
  • 實現億級別數據量查詢、統計、分析秒處理展示。

四、產品功能

數據集成:

院內分散、異構數據依據頤東數倉資產目錄表字段規則映射,并通過ETL工具實現歷史數據、實時數據抽取轉換。業務系統或集成平臺之間進行數據字典與碼表的映射轉換,解決系統之間的數據一致性問題。新舊系統切換或系統升級,歷史數據在新編碼體系和分類體系下的轉換和對接。

數據稽查:

用戶可以根據需求上傳需要比對的數據及相應標準,通過軟件對數據進行一致性和準確性稽核。

疾病稽查:

藥品稽查:

醫療知識庫:主數據管理

疾病、手術標準:

五、產品應用

1)數據治理

數據治理是治理多元異構的數據,治理數據資產,突出醫療價值,確保數據質量控制數據治理的過程要確保數據的完整性(事件、表單、記錄、表項),一致性(主數據一致性、邏輯一致性),唯一性(無二義冗余、指標及計算口徑),及時性,原始性,可溯源性及可測量性。

解決的問題:數據重復、一碼多病、數據雜亂、臟數據多

治理的方案:通過數倉產品建立院內數據資產目錄索引大數據中心

2)大數據中心

3)數據集市

根據臨床科室構建應用主題庫,為醫院臨床輔助、精細化運營管理、科研管理提供強有力的數據支撐。

4)數據上報

解決針對衛計委統計信息中心以《江蘇省健康信息平臺共享數據集》為基準上傳的數據的數據稽核與表結構轉換。

5)精準治理

單病種科研知識庫,輔助治理。

六、產品特性

1)多種數據源

支持多種數據源,一鍵接入,無需繁瑣配置。

2)零代碼

簡單易用的用戶體驗,零代碼建立傳輸任務,降低企業用戶使用門檻。

3)實時融合

實時的數據融合與集成,不讓延遲成為瓶頸,保證數據的時效性。

4)開箱即用

簡單快速的安裝流程,高效部署生產環境,即裝即用。

5)錯誤隊列預警

群集監控、故障排除、擴容擴展、應急處理,完善糾錯與預警機制。

6)安全審計

數據審計、數據盤點、權限認證、隱私處理。

7)全程質量管控

高質量體系保障數據傳輸的安全性與準確性,真正實現數據無憂。

8)數據服務

開放接口,開放數據,開放服務,支持第三方嫁接服務。

9)大數據生態系統

Hadoop生態系統中集成了大量的工具和組件來滿足不同計算和存儲需求,比如HDFS分布式文件系統、HBase列式數據庫、Hive數據倉庫、Kafka服務編排、MapReduce服務調度、impala類SQL數據倉庫等,可以方便地進行數據存儲和分析計算。

產品技術架構:

數據倉庫(ETL) + 自然語言處理(NPL)+大數據技術(Hadoop)+安全通信(OAuth2.0、密碼學、CAS)

七、名詞解釋

CDC又稱變更數據捕獲(Change Data Capture),開啟cdc的源表在插入INSERT、更新UPDATE和刪除DELETE活動時會插入數據到日志表中;CDC通過捕獲進程將變更數據捕獲到變更表中,通過cdc提供的查詢函數,我們可以捕獲這部分數據。

ETL數據倉庫技術(Extract-Transform-Load),它是將數據從源系統加載到數據倉庫的過程。用來描述將數據從來源端經過萃?。╡xtract)、轉置(transform)、加載(load)至目的端的過程。使用到的工具包含(kettle、flume、sqoop)。

Kettle基于JAVA的ETL工具,支持圖形化的GUI設計界面,然后可以以工作流的形式流轉,在做一些簡單或復雜的數據抽取、質量檢測、數據清洗、數據轉換、數據過濾等方面有著比較穩定的表現。

Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。

Sqoop是Apache開源軟件,主要用于在HADOOP(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞;適用于能與大數據集群直接通信的關系數據庫間的大批量數據傳輸。

 

本文由 @CTO老王 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!