淺談大數(shù)據(jù)在抗疫中的應(yīng)用和啟示
編輯導(dǎo)讀:新冠疫情發(fā)生以來,大數(shù)據(jù)、云計(jì)算、人工智能等新一代信息技術(shù)加速與交通、醫(yī)療、教育、金融等領(lǐng)域深度融合,讓疫情防控的組織和執(zhí)行更加高效,成為戰(zhàn)“疫”的強(qiáng)有力武器。本文作者分析了大數(shù)據(jù)在抗疫中的應(yīng)用,以及給我們帶來的啟示,希望對(duì)你有幫助。
一、概述
手機(jī)掃描健康碼,社區(qū)、鄉(xiāng)村工作人員精準(zhǔn)排查來往人員;在機(jī)場(chǎng)、碼頭、車站,用大數(shù)據(jù)實(shí)現(xiàn)旅客行蹤可追溯;實(shí)時(shí)疫情地圖將疫情數(shù)據(jù)的空間特征、時(shí)間特征和數(shù)量特征進(jìn)行可視化表達(dá)……
新冠肺炎疫情發(fā)生以來,大數(shù)據(jù)、云計(jì)算、人工智能等新一代信息技術(shù)加速與交通、醫(yī)療、教育、金融等領(lǐng)域深度融合,讓疫情防控的組織和執(zhí)行更加高效,成為戰(zhàn)“疫”的強(qiáng)有力武器。
從疫情信息統(tǒng)計(jì)分析,到流動(dòng)人員健康監(jiān)測(cè)、確診病例追蹤,再到疫情態(tài)勢(shì)研判、預(yù)測(cè),大數(shù)據(jù)技術(shù)助力筑牢疫情防控網(wǎng),為科學(xué)防控、復(fù)工復(fù)產(chǎn)、民生保障等提供了有力支撐。
圖1:科技公司積極參與到抗疫行動(dòng)中
資料來源:IDC中國(guó),2020
二、大數(shù)據(jù)在抗疫中的應(yīng)用
1. 構(gòu)建知識(shí)圖譜,追蹤傳播路徑
大數(shù)據(jù)技術(shù)可以梳理感染者的移動(dòng)軌跡,追蹤人群接觸史,建立知識(shí)圖譜,為精準(zhǔn)定位疫情傳播路徑,防控疫情擴(kuò)散等方面提供重要信息。
追蹤移動(dòng)軌跡、建立知識(shí)圖譜,已經(jīng)是大數(shù)據(jù)領(lǐng)域比較成熟的技術(shù)。位置數(shù)據(jù)方面,除了航空、鐵路、公路、輪渡等交通部門統(tǒng)計(jì)的出行數(shù)據(jù)外,在用戶授權(quán)的前提下,電信運(yùn)營(yíng)商可以基于手機(jī)信令等包含地理位置和時(shí)間戳信息的數(shù)據(jù)有效定位用戶的手機(jī)位置?;ヂ?lián)網(wǎng)企業(yè)也可以通過APP授權(quán)調(diào)用用戶手機(jī)位置數(shù)據(jù)。
此外,地圖、打車、旅游等APP提供的移動(dòng)出行服務(wù),電商、外賣平臺(tái)等APP內(nèi)的送貨地址數(shù)據(jù),以及銀行移動(dòng)支付的IP、經(jīng)緯度數(shù)據(jù)等都可以作為位置數(shù)據(jù)的有效補(bǔ)充。知識(shí)圖譜則可通過各類社交平臺(tái)、通信網(wǎng)絡(luò)、通話記錄、轉(zhuǎn)賬記錄等數(shù)據(jù)構(gòu)建。
圖2:疫情傳播知識(shí)圖譜
資料來源:杜娟.新冠肺炎疫情防控中,大數(shù)據(jù)在發(fā)揮什么作用?[J].大數(shù)據(jù)時(shí)代,2020(02):6-11.
將手機(jī)用戶不同時(shí)間段的授權(quán)位置數(shù)據(jù)進(jìn)行縱向串聯(lián),能夠有效繪制出移動(dòng)軌跡。這類個(gè)體數(shù)據(jù),可以追蹤被感染者的疾病傳播路徑、定位感染源,配合知識(shí)圖譜可以鎖定被感染者曾經(jīng)接觸過的人群,以便及時(shí)采取隔離、治療等防控措施,避免疫情更大范圍擴(kuò)散。
將同一時(shí)點(diǎn)不同個(gè)體的位置數(shù)據(jù)進(jìn)行橫向整合,就能形成群體數(shù)據(jù)。利用數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)能夠準(zhǔn)確刻畫跨地域漫入、漫出的不同類別人員的流動(dòng)方向、動(dòng)態(tài)及規(guī)模。
如果在百度遷徙地圖中輸入“武漢”這個(gè)城市,從1月10日春運(yùn)大幕拉開,到1月22日春運(yùn)第一階段高潮將要落下的時(shí)間點(diǎn),從武漢(起始地)流向全國(guó)各地的城市客流量排名,與各地新型肺炎病例被發(fā)現(xiàn)的數(shù)量與時(shí)間早晚,有著一定的正相關(guān)關(guān)系。
圖3:1月15日從武漢流向全國(guó)各城市人員分布
資料來源:百度地圖慧眼
利用群體位置數(shù)據(jù)制作疫情期間的人口遷徙地圖,可據(jù)此觀察各城市的人口流入、流出狀況,尤其是重點(diǎn)疫區(qū)人口流出方向。這些數(shù)據(jù)有利于定位疫情輸出的主要區(qū)域、預(yù)測(cè)地區(qū)疫情發(fā)展態(tài)勢(shì)、預(yù)測(cè)地區(qū)潛在染病人群,為疾病防控部門及地區(qū)政府有針對(duì)性地出臺(tái)交通管制措施提供科學(xué)支持。
2. 大數(shù)據(jù)構(gòu)建疫情發(fā)展模型
疫情期間,大眾密切關(guān)注疫情的傳播態(tài)勢(shì)。疫情還會(huì)傳播多久?感染者還會(huì)大幅增加嗎?哪里感染風(fēng)險(xiǎn)高?何時(shí)能夠進(jìn)入安全期?要解決這些問題,需要找出關(guān)鍵影響因素、分析疫情傳播特征、搭建疫情發(fā)展模型,這其中大數(shù)據(jù)能夠發(fā)揮關(guān)鍵作用。
除了醫(yī)療數(shù)據(jù)外,疫情傳播往往還受到氣候、溫度、濕度、地質(zhì)、交通、社會(huì)行為、城市衛(wèi)生等多維度因素影響。大數(shù)據(jù)技術(shù)的發(fā)展使得這些影響因素均能以數(shù)據(jù)形態(tài)展示,同時(shí)使得多維度、大規(guī)模的數(shù)據(jù)處理成為可能。利用大數(shù)據(jù)實(shí)現(xiàn)上萬(wàn)量級(jí)的影響因子建模,極大地豐富了疫情發(fā)展模型的分析維度。
SIR模型是傳染病模型中經(jīng)典的模型,其中S表示易感者(Susceptible),I表示感染者(Infective),R表示移除者(Removal)。
傳播過程大致如下:最初所有的節(jié)點(diǎn)都處于易感染狀態(tài),然后部分節(jié)點(diǎn)接觸到信息后,變成感染狀態(tài),這些感染狀態(tài)的節(jié)點(diǎn)試著去感染其他易感染狀態(tài)的節(jié)點(diǎn),或者進(jìn)入移除狀態(tài)。移除狀態(tài),即免疫,處于移除狀態(tài)的節(jié)點(diǎn)不再參與信息的傳播。
圖4:SIR模型傳播過程
假設(shè)易感染者,感染者,移出者之和是個(gè)恒量即 。病人康復(fù)后具有免疫力,人與人之間有相同的接觸率:
其中α,β都是以時(shí)間為變量的參數(shù),α(t)為日感染率,β(t)為日移出率。參考多方資料后,假設(shè)α=0.0000003,β=0.0077266,I(0)=1,S(0)=1000000(其中感染率a和移出率β都是根據(jù)官方所提供的數(shù)據(jù)估算出,武漢市人口共有一千萬(wàn),假設(shè)十分之一受到此次疫情的影響)。
圖5:湖北省疫情情況統(tǒng)計(jì)表
資料來源:湖北省衛(wèi)健委
仿真結(jié)果可以看到,21天到25天的數(shù)據(jù),也就是截止到1月26日24時(shí),預(yù)測(cè)的數(shù)據(jù)都是符合實(shí)際情況的。但是隨著疫情的擴(kuò)張,感染率勢(shì)必降低,移出率勢(shì)必提高。因此,感染率α和移出率β不會(huì)是一個(gè)常數(shù)。另外該模型過于精簡(jiǎn),將真實(shí)情況過度理想化,還有很多需要改進(jìn)的地方。
圖6:湖北省疫情仿真預(yù)測(cè)情況
如果利用采集到的出行軌跡流動(dòng)信息、社交信息、消費(fèi)數(shù)據(jù)、暴露接觸史等海量數(shù)據(jù),借助傳播動(dòng)力學(xué)模型、動(dòng)態(tài)感染模型、回歸模型等大數(shù)據(jù)分析技術(shù),就可以更為準(zhǔn)確的預(yù)測(cè)疫情的發(fā)展情況,并對(duì)疫情的峰值拐點(diǎn)等大態(tài)勢(shì)進(jìn)行判斷。另外還可以根據(jù)病患確診順序和密切接觸人員等信息定位時(shí)空碰撞點(diǎn),進(jìn)而推算出疾病傳播路徑,為傳染病溯源分析提供理論依據(jù)。
3. 大數(shù)據(jù)挖掘疫情輿論
疫情面前,疏解民眾的焦慮心理至關(guān)重要。由于信息獲取方式、生活方式的改變,搜索大數(shù)據(jù)已成為疫情之下了解民意的重要載體,每一條信息背后的點(diǎn)擊、每一次搜索,都精準(zhǔn)揭示了民眾的需求與問題。
疫情爆發(fā)的初始階段,“口罩”、“酒精”等搜索增多,而疫區(qū)“心理疏導(dǎo)”、“咽喉痛”搜索量激增74倍。隨著武漢封城,生鮮果蔬、防護(hù)物資、食品糧油、藥品等方面成為武漢及湖北人民搜索的熱點(diǎn),這也提醒當(dāng)?shù)卣枰WC相關(guān)物資的供應(yīng)。
圖7:“心理疏導(dǎo)”成為百度搜索熱點(diǎn)
數(shù)據(jù)來源:百度、CCTV
圖8:2月11日-2月26日武漢市民部分搜索關(guān)鍵詞
隨著疫情防控形勢(shì)好轉(zhuǎn),”櫻花”相關(guān)內(nèi)容搜索熱度超過”口罩”,反映出人們心理需求的變化:已經(jīng)迫不及待地期盼走出家門擁抱春天。
圖9:“櫻花”成為百度搜索熱點(diǎn)
數(shù)據(jù)來源:百度、CCTV
當(dāng)下,復(fù)工復(fù)產(chǎn)的步伐正在加速。如何利用大數(shù)據(jù),為各行各業(yè)和政府部門的決策提供參考,也至關(guān)重要。搜索大數(shù)據(jù)反映了國(guó)內(nèi)企業(yè)恢復(fù)生產(chǎn)的整體情況,給各行業(yè)有序籌備復(fù)工提供了可供參考的數(shù)據(jù)樣本。
圖10:復(fù)工復(fù)產(chǎn)新焦點(diǎn)
數(shù)據(jù)來源:百度、CCTV
在龐雜紛繁的信息環(huán)境中,越是全社會(huì)聚焦的重大突發(fā)事件,主動(dòng)搜索的模式對(duì)于民眾獲取知識(shí)與信息也就顯得越發(fā)重要。這一點(diǎn)在此次疫情中表現(xiàn)得也十分明顯。搜索大數(shù)據(jù)樣本體量不僅足夠大,還更加多元。海量用戶產(chǎn)生的真實(shí)搜索請(qǐng)求,潛藏著極具挖掘價(jià)值的數(shù)據(jù)金礦。因此,無(wú)論是疫情走勢(shì)判斷、居民的日常生活以及企業(yè)的復(fù)工情況,某種程度上都離不開搜索的支撐。
眾多互聯(lián)網(wǎng)平臺(tái)都在關(guān)注疫情,為何只有搜索能探測(cè)民意與輿論走向?當(dāng)然,這其中最主要的原因還在于搜索大數(shù)據(jù)能收集到海量的、具備分析價(jià)值的真實(shí)用戶的意愿與行為。
關(guān)于真實(shí)用戶需求,有句話是“客戶不是要買電鉆,而是要買墻上的那個(gè)洞?!蔽覀儚钠【婆c尿布的搭配銷售故事到口紅效應(yīng)(因經(jīng)濟(jì)蕭條而導(dǎo)致口紅大賣),都能看到大數(shù)據(jù)的威力。
2009年甲型H1N1流感在美國(guó)爆發(fā)的時(shí)候,谷歌通過觀察人們?cè)诰W(wǎng)上的搜索記錄完成了冬季流感預(yù)測(cè),它所測(cè)算出數(shù)據(jù)也成為美國(guó)公共衛(wèi)生機(jī)構(gòu)所能獲取到的非常有價(jià)值的信息,并且成為流感防控的一個(gè)更有效、更及時(shí)的指示標(biāo)。
谷歌的行為本質(zhì)上是平臺(tái)通過用戶行為精準(zhǔn)挖掘探測(cè)到了其真實(shí)需求。對(duì)應(yīng)到疫情下的新聞資訊平臺(tái),短視頻平臺(tái)以及社交媒體,網(wǎng)民“眾聲喧嘩”的背后,泥沙俱下,大量無(wú)用的社交信息充斥,聒噪中夾雜著水軍與機(jī)器的操縱,信息過載成為常態(tài),它并不能真實(shí)的反應(yīng)用戶需求與獲得真實(shí)民意反饋。而相對(duì)社交媒體等平臺(tái)的聒噪,搜索的背后是大量的用戶主動(dòng)求證行為,用戶此時(shí)在搜什么,反應(yīng)了用戶在想什么,這些數(shù)據(jù)反映了人們的關(guān)切點(diǎn),能更準(zhǔn)確、及時(shí)地反應(yīng)用戶真實(shí)意愿。
搜索像一面鏡子,能映照出民眾最迫切的需求,利用大數(shù)據(jù)處理和分析手段將有價(jià)值的信息從不斷增長(zhǎng)的海量數(shù)據(jù)中提取出來。通過對(duì)民意的洞察,可以提供一定的數(shù)據(jù)決策價(jià)值,輸出給地方政府與機(jī)構(gòu)、民眾所用,做到“取之于民,用之于民”。
三、啟示
1.?大數(shù)據(jù)可用于業(yè)務(wù)場(chǎng)景分析與決策
疫情期間大數(shù)據(jù)在建立知識(shí)圖譜、疫情地圖、預(yù)測(cè)模型等方面起到了關(guān)鍵作用。大數(shù)據(jù)同樣可以運(yùn)用到銀行業(yè)務(wù)中,從而更好的表達(dá)、分析金融業(yè)務(wù)場(chǎng)景的交易全貌,幫助銀行進(jìn)行分析與決策。
- 信貸領(lǐng)域的重點(diǎn)是獲客、身份驗(yàn)證、以及授信環(huán)節(jié)。獲客需要建立用戶畫像,追蹤用戶的完整生命周期;身份驗(yàn)證即通過活體識(shí)別、OCR等技術(shù)進(jìn)行申請(qǐng)人的驗(yàn)證的問題,任務(wù)關(guān)聯(lián)分析需要圖關(guān)聯(lián)技術(shù),找出任務(wù)知識(shí)圖譜;授信環(huán)節(jié)更要匯聚多方數(shù)據(jù)源,通過多維度歷史數(shù)據(jù)進(jìn)行建模并取得風(fēng)險(xiǎn)定價(jià),輸出信用分給金融機(jī)構(gòu)。
- 理財(cái)領(lǐng)域的重點(diǎn)是營(yíng)銷獲客和智能投顧。營(yíng)銷與信貸類似,需要建立全面完整的用戶畫像,覆蓋完整的用戶生命周期,才能做到真正的智能營(yíng)銷、獲客;智能投顧需要KYC和投借匹配,重點(diǎn)分析用戶風(fēng)險(xiǎn)等級(jí)及偏好,并進(jìn)行KYC與KYP結(jié)合,進(jìn)行智能匹配。
- 支付領(lǐng)域的核心是交易反欺詐,需要通過各種技術(shù)建立交易反欺詐引擎,并根據(jù)交易數(shù)據(jù)進(jìn)行反欺詐引擎模型優(yōu)化。
2. 大數(shù)據(jù)可用于服務(wù)優(yōu)化
- 輿情分析:銀行可以通過爬蟲技術(shù),抓取社區(qū)、論壇等外部媒體上關(guān)于銀行以及銀行產(chǎn)品和服務(wù)的相關(guān)信息,并對(duì)信息進(jìn)行正負(fù)面判斷,尤其是掌握銀行以及銀行產(chǎn)品和服務(wù)的負(fù)面信息,及時(shí)發(fā)現(xiàn)和處理問題;對(duì)于正面信息,可以加以總結(jié)并繼續(xù)強(qiáng)化。同時(shí),銀行也可以抓取同行業(yè)的銀行正負(fù)面信息,及時(shí)了解同行做的好的方面,以作為自身業(yè)務(wù)優(yōu)化的借鑒。
- 市場(chǎng)和渠道分析優(yōu)化。通過大數(shù)據(jù),銀行可以監(jiān)控不同市場(chǎng)推廣渠道尤其是網(wǎng)絡(luò)渠道推廣的質(zhì)量,從而進(jìn)行合作渠道的調(diào)整和優(yōu)化。同時(shí),也可以分析哪些渠道更適合推廣哪類銀行產(chǎn)品或者服務(wù),從而進(jìn)行渠道推廣策略的優(yōu)化。
- 產(chǎn)品和服務(wù)優(yōu)化:銀行可以將客戶行為轉(zhuǎn)化為信息流,并從中分析客戶的個(gè)性特征和風(fēng)險(xiǎn)偏好,更深層次地理解客戶的習(xí)慣,智能化分析和預(yù)測(cè)客戶需求,從而進(jìn)行產(chǎn)品創(chuàng)新和服務(wù)優(yōu)化。比如通過對(duì)還款數(shù)據(jù)挖掘比較區(qū)分優(yōu)質(zhì)客戶,根據(jù)客戶還款數(shù)額的差別,提供差異化的金融產(chǎn)品和服務(wù)方式。
3.?數(shù)據(jù)能力是運(yùn)用大數(shù)據(jù)的基礎(chǔ)
良好和豐富的數(shù)據(jù)是開展疫情防控應(yīng)用的基礎(chǔ)。傳統(tǒng)衛(wèi)生數(shù)據(jù)的采集起點(diǎn)通常是基層的社區(qū)衛(wèi)生中心,通過社區(qū)人員手工填報(bào),經(jīng)歷區(qū)衛(wèi)健委、市衛(wèi)健委,最終匯集至省衛(wèi)健委和國(guó)家衛(wèi)健委。這種采集方式在大數(shù)據(jù)量面前暴露出了一些弊端。一方面增加了基層數(shù)據(jù)采集工作人員的負(fù)擔(dān),降低了數(shù)據(jù)匯集的效率,另一方面難以在數(shù)據(jù)源頭快速核驗(yàn)數(shù)據(jù)的正確性,增加了后期數(shù)據(jù)質(zhì)量管理的成本。
在疫情防控中也存在數(shù)據(jù)分散割裂、流通不足的問題。例如運(yùn)營(yíng)商各省級(jí)公司之間相對(duì)獨(dú)立,數(shù)據(jù)各自保管存儲(chǔ),對(duì)數(shù)據(jù)的認(rèn)知角度也截然不同,最終導(dǎo)致數(shù)據(jù)之間難以互通,形成孤島。這樣造成的后果就是每一個(gè)城市都有自己的健康碼,如果去其他城市就要面臨無(wú)法健康碼互認(rèn)的問題。不打通這些數(shù)據(jù),大數(shù)據(jù)的價(jià)值將非常難挖掘,只有不同數(shù)據(jù)的關(guān)聯(lián)和整合才能更好的發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì)。
本文由 @汪仔6497 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
希望看到一些深度技術(shù)分析的文章