醫(yī)學(xué)數(shù)據(jù)科研——數(shù)據(jù)自定義導(dǎo)出
編輯導(dǎo)語:數(shù)據(jù)統(tǒng)計(jì)分析是各行業(yè)的常見業(yè)務(wù),此時(shí)如果能提升數(shù)據(jù)分析的效率,將可以為業(yè)務(wù)人員降低操作成本,比如在數(shù)據(jù)導(dǎo)出時(shí),我們是否能實(shí)現(xiàn)自定義導(dǎo)出,快速整理目標(biāo)字段?本篇文章里,作者結(jié)合醫(yī)療場(chǎng)景,對(duì)數(shù)據(jù)自定義導(dǎo)出一事做了解讀,一起來看一下。
一、背景
醫(yī)學(xué)科研是醫(yī)學(xué)進(jìn)步的動(dòng)力。通過科學(xué)的方法對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)行整理分析,進(jìn)而得出醫(yī)學(xué)中的診療規(guī)律,并應(yīng)用于相同病癥的患者,進(jìn)而提高患者的治愈率。
患者的診療數(shù)據(jù)存儲(chǔ)于醫(yī)院的信息系統(tǒng)中。由于醫(yī)院信息系統(tǒng)并未提供醫(yī)學(xué)科研相關(guān)的分析工具,所以需要使用專業(yè)的分析軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
首先,通過搜索功能找到符合要求的患者記錄。然后,設(shè)法將科研相關(guān)的字段導(dǎo)出。
如果人工將數(shù)據(jù)導(dǎo)出,那么操作過程將會(huì)變成如下過程:從患者列表逐個(gè)進(jìn)入患者詳情,從患者詳情中找到目標(biāo)數(shù)據(jù)。
如果科研的數(shù)據(jù)涉及到多種業(yè)務(wù),那么在同一條患者記錄內(nèi)部,就需要跨多張表單查找目標(biāo)數(shù)據(jù)。并手動(dòng)復(fù)制粘貼到系統(tǒng)外的Excel表格中。
整個(gè)數(shù)據(jù)導(dǎo)出過程中涉及多次打開系統(tǒng)、關(guān)閉系統(tǒng),打開表單、關(guān)閉表單,在表單內(nèi)查找目標(biāo)字段,耗費(fèi)了大量的時(shí)間成本,還存在數(shù)據(jù)粘貼在錯(cuò)誤位置的可能。
如何能夠快速將目標(biāo)字段整理出來?就是我們今天討論的主題——數(shù)據(jù)自定義導(dǎo)出。
二、數(shù)據(jù)自定義導(dǎo)出
數(shù)據(jù)自定義導(dǎo)出,指的是從變量池中根據(jù)需求選中符合要求的目標(biāo)變量,以某種格式的文件一次性從系統(tǒng)中全部導(dǎo)出。
例如,系統(tǒng)提供600 個(gè)變量可用于數(shù)據(jù)導(dǎo)出。在做胃部分切除術(shù)相關(guān)的研究時(shí),從中選擇了30個(gè)字段導(dǎo)出為CSV文件。
其中, “600 個(gè)變量”就是“變量池”,指的是系統(tǒng)中允許被導(dǎo)出的所有字段。
- “30 個(gè)字段”就是“目標(biāo)變量”,指的是本次需要導(dǎo)出的變量。
- “CSV 文件”就是“某種格式的文件”,指的是以數(shù)據(jù)導(dǎo)出后的使用目的為導(dǎo)向,生成相應(yīng)格式的文件。
- “從 600 個(gè)變量里根據(jù)需求選擇了 30 個(gè)變量”,即“自定義”,指的是用戶可以根據(jù)需要從變量池中選擇任何變量,并且變量數(shù)量不受限制。
首先,將不同業(yè)務(wù)內(nèi)、不同表單內(nèi)的導(dǎo)出頻率高的字段組合在一起形成變量池。省去查找目標(biāo)字段時(shí)的,表單切換和表單閱讀的時(shí)間。
然后,將在數(shù)據(jù)導(dǎo)出時(shí),對(duì)數(shù)據(jù)格式進(jìn)行處理,使其滿足目標(biāo)軟件的要求,然后將導(dǎo)出后的數(shù)據(jù)直接導(dǎo)入到目標(biāo)軟件中。縮短了數(shù)據(jù)格式進(jìn)一步加工的時(shí)間。
通過這兩步,大大提高數(shù)據(jù)導(dǎo)出的效率。
1. 變量池
醫(yī)療業(yè)務(wù)復(fù)雜,一個(gè)人無法處理所有的業(yè)務(wù),所以需要將業(yè)務(wù)拆分成不同的部分,由不同的專業(yè)人員負(fù)責(zé)不同的業(yè)務(wù)范圍,只有這樣才能讓系統(tǒng)正常運(yùn)行。
例如,張技師和王技師分別負(fù)責(zé)實(shí)驗(yàn)室檢驗(yàn)部分和影像檢查部分的業(yè)務(wù)。如果張技師去負(fù)責(zé)影像檢查部分的業(yè)務(wù),由于對(duì)影像業(yè)務(wù)的完全不熟悉,該段時(shí)間內(nèi)的影像檢查部分的業(yè)務(wù)將停滯。與之相關(guān)的業(yè)務(wù)都將收到影響。
醫(yī)院信息系統(tǒng)中與患者診療相關(guān)的系統(tǒng)包括門急診電子病歷系統(tǒng)、住院電子病歷系統(tǒng)、實(shí)驗(yàn)室檢驗(yàn)系統(tǒng)、影像學(xué)檢查系統(tǒng)、手術(shù)麻醉系統(tǒng)等系統(tǒng)。
住院電子病歷系統(tǒng)中包括住院醫(yī)生工作站、住院護(hù)士工作站、病案管理工作站等,存儲(chǔ)了患者的長(zhǎng)臨醫(yī)囑、用藥信息、日常病程記錄、既往病史、家族史等信息。
不同的模塊、不同的表單存放不同的患者信息。查找需要導(dǎo)出的字段時(shí),需要翻閱不同的系統(tǒng),在系統(tǒng)內(nèi)部切換不同的表單,在表單中找到需要導(dǎo)出的字段。整個(gè)過程耗費(fèi)大量時(shí)間,嚴(yán)重影響字段查找效率。
例如,導(dǎo)出患者胃部分切除術(shù)手術(shù)及手術(shù)前后的相關(guān)信息,則需要前往手麻系統(tǒng)、電子病歷系統(tǒng)、檢查系統(tǒng)、檢驗(yàn)系統(tǒng)等。在某個(gè)子系統(tǒng)中,仍然需要找到患者,并且進(jìn)入患者詳情找到對(duì)應(yīng)表單內(nèi)容。整個(gè)過程耗費(fèi)大量時(shí)間。
有沒有一種可能將可能用于導(dǎo)出的字段放在一起,不需要切換系統(tǒng)、表單逐個(gè)查找。
變量池就是將不同業(yè)務(wù)系統(tǒng)、不同表單中可能會(huì)用于導(dǎo)出的字段名稱放在一起。
變量池具備字段數(shù)量多、字段多值性的特點(diǎn)。
1)字段數(shù)量多
字段數(shù)量多,指的是可以用于導(dǎo)出的字段數(shù)量比較大。
出現(xiàn)這種情況的原因是,不同科室在做數(shù)據(jù)分析時(shí)關(guān)注的重點(diǎn)不同,需要導(dǎo)出的字段不完全一致。為了滿足這么多的導(dǎo)出需求,就需要把可能涉及到的字段全部放在變量池中。
一個(gè)分析方向可能會(huì)導(dǎo)出二三十個(gè)變量,需要支持幾十個(gè)可能的分析方向。對(duì)字段進(jìn)行去重以后,變量池內(nèi)的字段數(shù)量同樣也會(huì)達(dá)到幾百個(gè)。
變量池內(nèi)字段較多時(shí),通過人眼從中找到某一個(gè)字段,耗時(shí)較長(zhǎng)。
可以按照字段所屬業(yè)務(wù)系統(tǒng)、所在業(yè)務(wù)表單對(duì)字段進(jìn)行分組。直接選中目標(biāo)字段所在表單,縮小字段查找范圍,提高字段查找效率。
也可以通過搜索功能,通過輸入目標(biāo)變量的字段名,直接定位到目標(biāo)變量所在位置,提高字段查找的效率。
例如,為了支持肝臟介入科的數(shù)據(jù)分析工作,將可能用到的字段進(jìn)行整理,共計(jì)整理出 300 個(gè)字段(下圖字段僅做示例)。
將字段按照所在表單進(jìn)行劃分人口學(xué)、現(xiàn)病史、檢驗(yàn)、手術(shù),可以通過點(diǎn)擊左側(cè)的表單列表,將字段的范圍縮小到幾十個(gè)變量。也可以在搜索框內(nèi)輸入字段名,直接定位到該字段的位置。
2)字段的多值性
字段的多值性,指的是同一個(gè)患者的同一個(gè)字段會(huì)有多個(gè)結(jié)果。
例如,張三的血常規(guī)中的白細(xì)胞計(jì)數(shù)字段有 11 個(gè)結(jié)果。
產(chǎn)生字段多值的原因是,患者癥狀在變化。為了讓記錄不斷變化的病情,需要做多次檢驗(yàn)檢查,并據(jù)此調(diào)整治療方案,最終產(chǎn)生了多個(gè)值。
例如,患者張三隨著放療的進(jìn)行,身體狀況在不斷變化。通過檢驗(yàn)檢查等手段來測(cè)量身體的各項(xiàng)指標(biāo)。放療 2 個(gè)月,共做了 7 次檢驗(yàn)。使得檢驗(yàn)部分的字段產(chǎn)生了 多次結(jié)果。
而研究時(shí)往往關(guān)注患者在某個(gè)狀態(tài)下的指標(biāo)情況,即從眾多結(jié)果中找到某一個(gè)特定的結(jié)果。
例如,研究胃部分切除術(shù)的情況時(shí),需要了解術(shù)后第一次白細(xì)胞計(jì)數(shù)的結(jié)果。此時(shí)就需要精準(zhǔn)的找到患者的該次白細(xì)胞計(jì)數(shù)的值。
所以就需要給具有多值性的字段增加一個(gè)限定條件。
常見的限定條件有:
- 針對(duì)數(shù)值型字段有全部、最大值、最小值、最早一次、最近一次、平均值。
- 針對(duì)文本型、選項(xiàng)型日期型字段有全部、最早一次、最晚一次。
上述說的限定條件都有一個(gè)默認(rèn)前提,“在所有的時(shí)間范圍內(nèi)”,即在患者的整個(gè)就醫(yī)時(shí)間范圍內(nèi),但是實(shí)際研究中,我們可能需要的是患者在某個(gè)特定時(shí)間內(nèi)某個(gè)狀態(tài)的結(jié)果。
例如,需要患者在“最近一次胃部分切除術(shù)后的第一次白細(xì)胞計(jì)數(shù)結(jié)果”。其中,特定時(shí)間值得是“最近一次胃部分切除術(shù)后的所有時(shí)間”。
此時(shí)需要先找到該患者的最近一次,胃部分切除術(shù)的時(shí)間點(diǎn),最后以該時(shí)間為基準(zhǔn)時(shí)間點(diǎn)。然后去所有的血常規(guī)檢查中查找白細(xì)胞計(jì)數(shù)。根據(jù)血常規(guī)的檢查時(shí)間,定位到具體的某一次結(jié)果。
這種限定類型稱之為“事件-時(shí)間”型,即先通過某一個(gè)具體的事件,以該事件發(fā)生的時(shí)間點(diǎn)作為基準(zhǔn),在該基準(zhǔn)前 / 后某段時(shí)間范圍內(nèi),目標(biāo)字段的特定值。常見的事件有“放療、化療、手術(shù)、用藥、臨床診斷、病理診斷等”。
2. 特定的數(shù)據(jù)格式
科研的需求一直存在,為了滿足科研需求,專業(yè)統(tǒng)計(jì)分析軟件應(yīng)運(yùn)而生,并逐步發(fā)展。常用的軟件有spss、SAS、R等。其中SPSS從1984年開始發(fā)展,到2009年已經(jīng)將數(shù)據(jù)管理、數(shù)據(jù)分析做到非常完善的地步。
而2009年,中國(guó)首次將醫(yī)療衛(wèi)生信息化定性為支撐改革的支柱,在國(guó)家級(jí)層面提出發(fā)展信息化的要求。此后醫(yī)院信息化軟件迅速發(fā)展,前期以業(yè)務(wù)信息化為主。2014年才開始重點(diǎn)轉(zhuǎn)移到健康數(shù)據(jù)上。
如果此時(shí)醫(yī)院信息系統(tǒng)再集成或者開發(fā)統(tǒng)計(jì)分析軟件,需要投入大量的金錢和精力,而且醫(yī)生的接受度如何都是未知數(shù)。醫(yī)院自行開發(fā)或采購的意義都變得不大。
造成了現(xiàn)在的情況,醫(yī)院現(xiàn)有的軟件系統(tǒng)中醫(yī)學(xué)統(tǒng)計(jì)分析部分缺失,統(tǒng)計(jì)分析工作需要在專業(yè)統(tǒng)計(jì)分析軟件中完成的。所以當(dāng)醫(yī)生想要做醫(yī)學(xué)統(tǒng)計(jì)分析時(shí),就需要將數(shù)據(jù)從在醫(yī)院信息系統(tǒng)中導(dǎo)出。
數(shù)據(jù)導(dǎo)出后,需要手動(dòng)對(duì)數(shù)據(jù)格式處理,才可以滿足目標(biāo)軟件的需要,浪費(fèi)醫(yī)生的時(shí)間。
怎么才能讓數(shù)據(jù)導(dǎo)出后,不需要額外的數(shù)據(jù)處理,直接被目標(biāo)軟件所使用,從而減少醫(yī)生時(shí)間的浪費(fèi)。
在數(shù)據(jù)導(dǎo)出時(shí),由系統(tǒng)完成數(shù)據(jù)格式處理的工作,數(shù)據(jù)被導(dǎo)出后可以直接導(dǎo)入分析軟件,從而節(jié)約數(shù)據(jù)處理的時(shí)間。
在數(shù)據(jù)導(dǎo)出時(shí),根據(jù)目標(biāo)軟件的需要,生成特定數(shù)據(jù)格式的文件。數(shù)據(jù)文件被導(dǎo)出后可以直接導(dǎo)入分析軟件,從而節(jié)約數(shù)據(jù)處理的時(shí)間。
特定的數(shù)據(jù)格式,指的是醫(yī)療信息系統(tǒng)往統(tǒng)計(jì)分析軟件傳輸數(shù)據(jù)時(shí),按照統(tǒng)計(jì)分析軟件對(duì)數(shù)據(jù)格式的要求生成數(shù)據(jù)。
以將數(shù)據(jù)導(dǎo)入spss分析為例。
spss對(duì)導(dǎo)入數(shù)據(jù)有以下要求:
- 文件格式為Excel或csv。
- 同一個(gè)案的數(shù)據(jù)要單獨(dú)占一行。
- 每一個(gè)測(cè)量指標(biāo)只占一列。
- 測(cè)量指標(biāo)的結(jié)果為數(shù)值型。
如果導(dǎo)入的數(shù)據(jù)不符合要求,則數(shù)據(jù)導(dǎo)入失敗,需要手動(dòng)對(duì)數(shù)據(jù)進(jìn)行調(diào)整,然后再重新導(dǎo)入。
為了保證數(shù)據(jù)能夠直接導(dǎo)入spss中。導(dǎo)出的數(shù)據(jù)需要滿足:
- 文件格式為Excel或csv。
- Excel中同一個(gè)案的數(shù)據(jù)要在一行,每一個(gè)測(cè)量指標(biāo)占一列。
- 確保數(shù)值型字段的數(shù)據(jù)類型為數(shù)字,而不是文本。
- 將枚舉型的值替換成數(shù)字。
系統(tǒng)將處理好格式的數(shù)據(jù),以Excel文件的形式傳遞給前端頁面。用戶將文件下載下來以后,直接導(dǎo)入spss做分析工作。
三、總結(jié)
由于醫(yī)療信息化和專業(yè)統(tǒng)計(jì)軟件的發(fā)展速度不均衡,造成了醫(yī)院信息系統(tǒng)與統(tǒng)計(jì)分析軟件互不相通。所以醫(yī)學(xué)數(shù)據(jù)統(tǒng)計(jì)分析時(shí),需要先數(shù)據(jù)導(dǎo)出,再導(dǎo)入分析軟件。
2014年,中國(guó)提出“46312”計(jì)劃,開展“健康中國(guó)云服務(wù)計(jì)劃”,國(guó)內(nèi)的醫(yī)療大數(shù)據(jù)產(chǎn)品迅速崛起。臨床大數(shù)據(jù)公司紛紛成立,醫(yī)院開始建設(shè)臨床數(shù)據(jù)中心。醫(yī)院信息化從業(yè)務(wù)信息化發(fā)展到臨床數(shù)據(jù)精細(xì)化。
各大數(shù)據(jù)平臺(tái)不僅開始增加傳統(tǒng)的統(tǒng)計(jì)分析工具,也增加了基于深度學(xué)習(xí)、機(jī)器學(xué)習(xí)的的新的分析方法。這使得我們可以在大數(shù)據(jù)平臺(tái)中完成統(tǒng)計(jì)分析工作。不過易用性、使用習(xí)慣仍需要不斷打磨。
相信不遠(yuǎn)的將來,再做醫(yī)學(xué)數(shù)據(jù)統(tǒng)計(jì)分析時(shí),可以在院內(nèi)大數(shù)據(jù)平臺(tái)中,無縫完成數(shù)據(jù)分析工作,不再需要將數(shù)據(jù)導(dǎo)出。
PS:與之前完成的數(shù)據(jù)的高級(jí)搜索剛好組成一體,通過高級(jí)檢索搜索到目標(biāo)患者,然后將需要的字段導(dǎo)出。
本文由 @山南 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels,基于 CC0 協(xié)議
感謝分享
數(shù)據(jù)自定義導(dǎo)出對(duì)于辦公而言確實(shí)是很好的存在,但是也要保證精準(zhǔn)性
準(zhǔn)確度是基礎(chǔ)
這個(gè)操作看起來很是高級(jí),不過不得說身邊的醫(yī)學(xué)生每天看書都是大堆大堆的