醫(yī)藥行業(yè)類型復(fù)雜的醫(yī)藥產(chǎn)品及服務(wù)、數(shù)量龐大的客戶群體等特性催生了海量級(jí)的數(shù)據(jù),具有數(shù)據(jù)量大、類型繁多、價(jià)值密度低、速度時(shí)效高的典型性大數(shù)據(jù)特征。那么,如何將數(shù)據(jù)組織起來(lái),使其既有吸引力又易于理解?
接軌“大數(shù)據(jù)”,傳統(tǒng)醫(yī)療遇挑戰(zhàn);搭上“互聯(lián)網(wǎng)+”的列車,醫(yī)療機(jī)構(gòu)便開始行進(jìn)在醫(yī)療信息數(shù)字化的路上。
醫(yī)療大數(shù)據(jù)是醫(yī)生對(duì)患者診療和治療過(guò)程總產(chǎn)生的大數(shù)據(jù),包括患者基本大數(shù)據(jù)、電子病歷、診療大數(shù)據(jù)、醫(yī)學(xué)影像大數(shù)據(jù)、醫(yī)學(xué)管理、經(jīng)濟(jì)數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來(lái)源。而不斷數(shù)據(jù)化的信息,在使醫(yī)院數(shù)據(jù)庫(kù)信息容量不斷膨脹的同時(shí),也對(duì)疾病及病人的管理、控制和醫(yī)療大數(shù)據(jù)研究起到了積極的作用,價(jià)值不菲。
現(xiàn)在要跨入“互聯(lián)網(wǎng)+”的頻道,其固有的復(fù)雜性和特殊性致使轉(zhuǎn)型難度不容小覷。就拿一個(gè)初具規(guī)模的醫(yī)院來(lái)說(shuō),每天需要接待上萬(wàn)的患者前來(lái)就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個(gè)非常龐大的大數(shù)據(jù)。
據(jù)大數(shù)據(jù)初步統(tǒng)計(jì),上海市區(qū)域醫(yī)療大數(shù)據(jù)信息平臺(tái)(上海市“醫(yī)聯(lián)工程”及區(qū)縣衛(wèi)生數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬(wàn)人群、1400 TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級(jí)醫(yī)院3900萬(wàn)就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗(yàn)及影像檢查報(bào)告、醫(yī)學(xué)影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。日積月累,這個(gè)大數(shù)據(jù)量將會(huì)持續(xù)快速增長(zhǎng),為醫(yī)院的數(shù)據(jù)存儲(chǔ)、集成、調(diào)用等應(yīng)用帶來(lái)巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病理分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)存儲(chǔ)復(fù)雜,并且對(duì)傳統(tǒng)的處理方法和技術(shù)帶來(lái)巨大挑戰(zhàn)。
從理論層面來(lái)講,醫(yī)療大數(shù)據(jù)主要來(lái)源于以下幾個(gè)方面:
(1)病人就醫(yī)過(guò)程中產(chǎn)生的信息。從患者進(jìn)入醫(yī)院開始,掛號(hào)環(huán)節(jié)便將個(gè)人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫(yī)生就醫(yī)環(huán)節(jié),病患的身體狀況、醫(yī)療影像等信息也將被錄入數(shù)據(jù)庫(kù);看病結(jié)束以后,患者買單結(jié)算的過(guò)程中,又將有費(fèi)用信息、報(bào)銷信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫(kù)里面。這將形成醫(yī)療大數(shù)據(jù)最基礎(chǔ)卻也是最龐大的原始資源。
(2)臨床醫(yī)療研究和實(shí)驗(yàn)室數(shù)據(jù)。臨床和實(shí)驗(yàn)室數(shù)據(jù)整合在一起,使得醫(yī)療機(jī)構(gòu)面臨的數(shù)據(jù)增長(zhǎng)非??欤粡埰胀?/span>CT圖像含有大約150 MB的數(shù)據(jù),一個(gè)標(biāo)準(zhǔn)的病理圖則接近5 GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個(gè)社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達(dá)數(shù)萬(wàn)億字節(jié)甚至數(shù)千萬(wàn)億字節(jié)(PB)之多。
(3)制藥企業(yè)和生命科學(xué)。藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當(dāng)密集的,對(duì)于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學(xué)領(lǐng)域,隨著計(jì)算能力和基因測(cè)序能力逐步增加,美國(guó)哈佛醫(yī)學(xué)院個(gè)人基因組項(xiàng)目負(fù)責(zé)人詹森·鮑比就認(rèn)為,到2015年,將會(huì)有5000萬(wàn)人擁有個(gè)人基因圖譜,而一個(gè)基因組序列文件大小約為750MB。
(4)智能穿戴設(shè)備帶來(lái)的健康管理。隨著移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個(gè)體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實(shí)現(xiàn)對(duì)個(gè)人健康數(shù)據(jù)隨時(shí)隨地的采集,而帶來(lái)的數(shù)據(jù)信息量將更是不可估量的。
從行業(yè)技術(shù)上來(lái)講,醫(yī)療大數(shù)據(jù)特征包含了大數(shù)據(jù)性+醫(yī)療性
如此規(guī)模巨大的臨床實(shí)驗(yàn)數(shù)據(jù)、疾病診斷數(shù)據(jù)以及居民行為健康數(shù)據(jù)等匯聚在一起所形成的醫(yī)療大數(shù)據(jù),已然呈現(xiàn)出其作為大數(shù)據(jù)的特性,即:
(1)數(shù)據(jù)規(guī)模大(volume)。例如一個(gè)CT圖像含有大約150MB的數(shù)據(jù),而一個(gè)基因組序列文件大小約為750MB,一個(gè)標(biāo)準(zhǔn)的病理圖則大得多,接近5GB。
(2)數(shù)據(jù)結(jié)構(gòu)多樣(variety)。醫(yī)療數(shù)據(jù)通常會(huì)包含各種結(jié)構(gòu)化表、非(半)結(jié)構(gòu)化文本文檔(XML和敘述本)、醫(yī)療影像等多種多樣的數(shù)據(jù)存儲(chǔ)形式。
(3)數(shù)據(jù)增長(zhǎng)快速(velocity)。一方面,醫(yī)療信息服務(wù)中包含大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報(bào)表生成、健康指標(biāo)預(yù)警等;另一方面,得益于信息技術(shù)的發(fā)展,越來(lái)越多的醫(yī)療信息被數(shù)字化,因此在很長(zhǎng)一段時(shí)間里,醫(yī)療衛(wèi)生領(lǐng)域數(shù)據(jù)的增長(zhǎng)速度將依然會(huì)很快。
(4)數(shù)據(jù)價(jià)值巨大(value)。毋庸置疑,數(shù)據(jù)是石油,是資源,是資產(chǎn),醫(yī)療大數(shù)據(jù)不僅與每個(gè)人的個(gè)人生活息息相關(guān),對(duì)這些數(shù)據(jù)的有效利用更關(guān)系到國(guó)家乃至全球的疾病防控、新藥品研發(fā)和頑疾攻克的能力。
而除了大數(shù)據(jù)所具有的特征(即volume,variety,value,velocity)外,醫(yī)療大數(shù)據(jù)還具有多態(tài)性、不完整性、時(shí)間性及冗余性等醫(yī)療領(lǐng)域特有的一些特征。
(1)多態(tài)性醫(yī)療大數(shù)據(jù)包括純數(shù)據(jù)(如體檢、化驗(yàn)結(jié)果)、信號(hào)(如腦電信號(hào)、心電信號(hào)等)、圖像(如B超、X線等)、文字(如主訴、現(xiàn)/往病史、過(guò)敏史、檢測(cè)報(bào)告等),以及用以科普、咨詢的動(dòng)畫、語(yǔ)音盒視頻信息等多種形態(tài)的數(shù)據(jù),是區(qū)別于其他領(lǐng)域大數(shù)據(jù)的最顯著特征。
(2)不完整性醫(yī)療數(shù)據(jù)的搜集和處理過(guò)程經(jīng)常相互脫節(jié),這使得醫(yī)療數(shù)據(jù)庫(kù)不可能對(duì)任何疾病信息都能全面反映。大量大數(shù)據(jù)來(lái)源于人工記錄,導(dǎo)致數(shù)據(jù)記錄的偏差和殘缺,許多數(shù)據(jù)的表達(dá)、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫(yī)療大數(shù)據(jù)的不完整性。
(3)時(shí)間性患者的就診、疾病的發(fā)病過(guò)程在時(shí)間上有一個(gè)進(jìn)度,醫(yī)學(xué)檢測(cè)的波形、圖像都是時(shí)間函數(shù),這些都具有一定的時(shí)序性。
(4)冗余性醫(yī)學(xué)大數(shù)據(jù)量大,每天都會(huì)產(chǎn)生大量信息,其中可能會(huì)包含重復(fù)、無(wú)關(guān)緊要甚至是相互矛盾的記錄。
下面講述以下關(guān)于醫(yī)療大數(shù)據(jù)的實(shí)際應(yīng)用案例
經(jīng)過(guò)數(shù)據(jù)的原始積累,并逐步走向成熟的醫(yī)療大數(shù)據(jù),將給我們帶來(lái)怎樣的效用呢?根據(jù)全球管理咨詢公司麥肯錫的一份最新報(bào)告顯示,醫(yī)療保健領(lǐng)域如果能夠充分有效地利用大數(shù)據(jù)資源,醫(yī)療機(jī)構(gòu)和消費(fèi)者便可節(jié)省高達(dá)4500億美元的費(fèi)用。
大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用可在以下幾個(gè)方面發(fā)揮積極作用:
(1)服務(wù)居民。居民大數(shù)據(jù)健康指導(dǎo)服務(wù)系統(tǒng),提供精準(zhǔn)醫(yī)療、個(gè)性化健康保健指導(dǎo),使居民能在醫(yī)院、社區(qū)及線上的服務(wù)保持連續(xù)性。例如,提供心血管、癌癥、高血壓、糖尿病等慢性病干預(yù)、管理、健康預(yù)警及健康宣教(保健方案訂閱、推送);同時(shí)減少患者住院時(shí)間,減少急診量,提高家庭護(hù)理比例和門診醫(yī)生預(yù)約量。
(2)服務(wù)醫(yī)生。臨床決策支持,如用藥分析、藥品不良反應(yīng)、疾病并發(fā)癥、治療效果相關(guān)性分析、抗生素應(yīng)用分析;或是制定個(gè)性化治療方案。
(3)服務(wù)科研。包括疾病診斷與預(yù)測(cè)、提高臨床試驗(yàn)設(shè)計(jì)的統(tǒng)計(jì)工具和算法、臨床實(shí)驗(yàn)數(shù)據(jù)的分析與處理等方面,如針對(duì)重大疾病識(shí)別疾病易感基因、極端表現(xiàn)人群;提供最佳治療途徑。
(4)服務(wù)管理機(jī)構(gòu)。規(guī)范性用藥評(píng)價(jià)、管理績(jī)效分析;流行病、急病等預(yù)防干預(yù)及措施評(píng)價(jià);公眾健康監(jiān)測(cè),付款(或定價(jià))、臨床路徑的優(yōu)化等。
公眾健康服務(wù)。包括危及健康因素的監(jiān)控與預(yù)警、網(wǎng)絡(luò)平臺(tái)、社區(qū)服務(wù)等方面。
接軌“大數(shù)據(jù)”,傳統(tǒng)醫(yī)療遇挑戰(zhàn)
“互聯(lián)網(wǎng)+”的日新月異,醫(yī)療大數(shù)據(jù)機(jī)構(gòu)便開始行進(jìn)在醫(yī)療信息數(shù)字化的路上。
醫(yī)療大數(shù)據(jù)是醫(yī)生對(duì)患者診療和治療過(guò)程總產(chǎn)生的數(shù)據(jù),包括患者基本數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)、醫(yī)學(xué)管理、經(jīng)濟(jì)數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來(lái)源。而不斷數(shù)據(jù)化的信息,在使醫(yī)院數(shù)據(jù)庫(kù)信息容量不斷膨脹的同時(shí),也對(duì)疾病及病人的管理、控制和醫(yī)療研究起到了積極的作用,價(jià)值不菲。但是,發(fā)展了那么多年的傳統(tǒng)醫(yī)療行業(yè),現(xiàn)在要跨入“互聯(lián)網(wǎng)+”的頻道,其固有的復(fù)雜性和特殊性致使轉(zhuǎn)型難度不容小覷。就拿一個(gè)初具規(guī)模的醫(yī)院來(lái)說(shuō),每天需要接待上萬(wàn)的患者前來(lái)就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個(gè)非常龐大的數(shù)據(jù)。據(jù)初步統(tǒng)計(jì),上海市區(qū)域醫(yī)療信息平臺(tái)(上海市“醫(yī)聯(lián)工程”及區(qū)縣衛(wèi)生數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬(wàn)人群、1400 TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級(jí)醫(yī)院3900萬(wàn)就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗(yàn)及影像檢查報(bào)告、醫(yī)學(xué)影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。日積月累,這個(gè)數(shù)據(jù)量將會(huì)持續(xù)快速增長(zhǎng),為醫(yī)院的數(shù)據(jù)存儲(chǔ)、集成、調(diào)用等應(yīng)用帶來(lái)巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病理分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些大數(shù)據(jù)存儲(chǔ)復(fù)雜,并且對(duì)傳統(tǒng)的處理方法和技術(shù)帶來(lái)巨大挑戰(zhàn)。
醫(yī)療大數(shù)據(jù)中“大數(shù)據(jù)”是怎么來(lái)的?
隨著醫(yī)療衛(wèi)生信息化建設(shè)進(jìn)程的不斷加快,醫(yī)療數(shù)據(jù)的類型和規(guī)模也在以前所未有的速度迅猛增長(zhǎng),甚至到了在很大程度上無(wú)法利用目前主流軟件工具,在合理的時(shí)間內(nèi)達(dá)到擷取、管理并整合成為能夠幫助醫(yī)院進(jìn)行更積極目的經(jīng)營(yíng)決策的有用信息的地步。而且,如此具有特殊性、復(fù)雜性的龐大的醫(yī)療大數(shù)據(jù),其搜集如果僅靠個(gè)人甚至個(gè)別機(jī)構(gòu),那基本是不可能完成的任務(wù)。那么,這些數(shù)據(jù)到底是怎么產(chǎn)生的,又都來(lái)自于哪里呢?經(jīng)過(guò)簡(jiǎn)單的梳理,我們大致可以把他們歸檔在以下4個(gè)框架里:
(1)病人就醫(yī)過(guò)程中產(chǎn)生的信息。從患者進(jìn)入醫(yī)院開始,掛號(hào)環(huán)節(jié)便將個(gè)人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫(yī)生就醫(yī)環(huán)節(jié),病患的身體狀況、醫(yī)療影像等信息也將被錄入數(shù)據(jù)庫(kù);看病結(jié)束以后,患者買單結(jié)算的過(guò)程中,又將有費(fèi)用信息、報(bào)銷信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫(kù)里面。這將形成醫(yī)療大數(shù)據(jù)最基礎(chǔ)卻也是最龐大的原始資源。
(2)臨床醫(yī)療研究和實(shí)驗(yàn)室數(shù)據(jù)。臨床和實(shí)驗(yàn)室數(shù)據(jù)整合在一起,使得醫(yī)療機(jī)構(gòu)面臨的數(shù)據(jù)增長(zhǎng)非??欤粡埰胀?/span>CT圖像含有大約150 MB的數(shù)據(jù),一個(gè)標(biāo)準(zhǔn)的病理圖則接近5 GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個(gè)社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達(dá)數(shù)萬(wàn)億字節(jié)甚至數(shù)千萬(wàn)億字節(jié)(PB)之多。
(3)制藥企業(yè)和生命科學(xué)。藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當(dāng)密集的,對(duì)于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學(xué)領(lǐng)域,隨著計(jì)算能力和基因測(cè)序能力逐步增加,美國(guó)哈佛醫(yī)學(xué)院個(gè)人基因組項(xiàng)目負(fù)責(zé)人詹森·鮑比就認(rèn)為,到2015年,將會(huì)有5000萬(wàn)人擁有個(gè)人基因圖譜,而一個(gè)基因組序列文件大小約為750MB。
(4)智能穿戴設(shè)備帶來(lái)的健康管理。隨著移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個(gè)體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實(shí)現(xiàn)對(duì)個(gè)人健康數(shù)據(jù)隨時(shí)隨地的采集,而帶來(lái)的數(shù)據(jù)信息量將更是不可估量的。