關(guān)于數(shù)據(jù)采集:你需要了解這些
導(dǎo)讀:通過上一系列《10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系》,我們了解了目前較為流行的幾種發(fā)生在企業(yè)業(yè)務(wù)活動中數(shù)據(jù)存儲方式的區(qū)別與聯(lián)系。有了“鍋碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我們就需要進(jìn)行數(shù)據(jù)采集。
一、數(shù)據(jù)采集的必要性
數(shù)據(jù)采集是數(shù)據(jù)分析挖掘的根基:
數(shù)據(jù)分析與挖掘過程中比較基礎(chǔ)且重要的一個環(huán)節(jié)是數(shù)據(jù)采集,再好的特征選取,建模算法,沒有了優(yōu)質(zhì)的元數(shù)據(jù),也會“巧婦難為無米之炊”。
采集的數(shù)據(jù)決定了數(shù)據(jù)分析挖掘的上限:
經(jīng)驗告訴我們怎樣從歷史數(shù)據(jù)的展現(xiàn)和分析過程中得到有用知識,不管你是通過報表或多維分析得到企業(yè)各領(lǐng)域指標(biāo)相關(guān)性,還是通過挖掘模型的實施來根據(jù)歷史數(shù)據(jù)預(yù)測企業(yè)未來發(fā)展,這一切都是基于企業(yè)歷史數(shù)據(jù)的。沒有數(shù)據(jù)質(zhì)量基礎(chǔ)的保證,展現(xiàn)得多華麗的走勢圖表都是垃圾。
如下圖所示,garbage in , garbage out(垃圾進(jìn),垃圾出),指如果將錯誤的、無意義的數(shù)據(jù)輸入計算機(jī)系統(tǒng),計算機(jī)自然也一定會輸出錯誤、無意義的結(jié)果。(該諺語在數(shù)據(jù)分析領(lǐng)域也同樣適用)
garbage in garbage out(垃圾進(jìn)垃圾出)
二、數(shù)據(jù)采集方式
數(shù)據(jù)采集方式按照線上采集,線下采集兩大類進(jìn)行分類,下面對于每種采集方式及相關(guān)技術(shù)進(jìn)行簡單的介紹。
1. 線上采集
1)開放數(shù)據(jù)
開放數(shù)據(jù)指的是互聯(lián)網(wǎng)中面向所有人公開的數(shù)據(jù),其中包括面向特定行業(yè)公開的數(shù)據(jù),各級政府公開的數(shù)據(jù)以及網(wǎng)頁中相關(guān)的內(nèi)容數(shù)據(jù),例如下圖所示為北京市公共數(shù)據(jù)開放平臺。
獲取開放類數(shù)據(jù),我們可以使用爬蟲技術(shù),這里簡單介紹一下爬蟲技術(shù)。
爬蟲技術(shù)是一種可以使開發(fā)人員自動化,系統(tǒng)化收集互聯(lián)網(wǎng)上相關(guān)數(shù)據(jù)的技術(shù),爬蟲不是內(nèi)容的生產(chǎn)者,而是內(nèi)容的搬運(yùn)者。關(guān)于爬蟲技術(shù)的各類學(xué)習(xí)資料在網(wǎng)上可以說是“汗牛充棟”,筆者在這里就不展開說了,但是這里關(guān)于爬蟲要講的就是爬蟲的安全問題,一定要遵守相關(guān)法律,切記不要觸碰紅線。
a. 個人信息,商業(yè)秘密與國家秘密是數(shù)據(jù)爬取的紅線。
b. 遵守職業(yè)道德,控制爬蟲訪問頻次,不要干擾被爬方的正常業(yè)務(wù)活動。
c. 遵守robots協(xié)議,做到什么能爬,什么不能爬。
2)第三方平臺數(shù)據(jù)
比如說開發(fā)者想獲取相關(guān)各類金融數(shù)據(jù),除了可以利用爬蟲技術(shù)外,我們可以通過某第三方平臺提供的API接口來調(diào)取相關(guān)數(shù)據(jù),例如下圖所示為Toshare大數(shù)據(jù)開放平臺,開發(fā)者可以獲取各類金融數(shù)據(jù)。
筆者曾接到過這樣一個任務(wù),獲取某市所有的禁止機(jī)動車左轉(zhuǎn),禁止機(jī)動車右轉(zhuǎn),禁止機(jī)動車掉頭的路段,在沒有條件獲取準(zhǔn)確的數(shù)據(jù)時,我們可以通過高德或百度的地圖開放平臺的API接口,分別在路口處設(shè)置起訖點,通過對比機(jī)動車與步行的路徑規(guī)劃距離來分析該路口是否禁左,禁右,禁掉頭,如下圖所示為百度開放平臺,我們可以在這里通過API接口,完成各類數(shù)據(jù)采集。
對應(yīng)的功能有相應(yīng)的服務(wù)文檔講解如何使用,大家有興趣可以打開網(wǎng)址進(jìn)行嘗試。
3)物理數(shù)據(jù)
物理數(shù)據(jù)指的是用戶在物理世界產(chǎn)生的數(shù)據(jù),例如用戶使用手機(jī)時手機(jī)的各類傳感器(指紋傳感器:記錄用戶指紋用于解鎖手機(jī)或支付等行為,陀螺儀:通過角動量守恒原理記錄角速度用于手機(jī)導(dǎo)航等行為)
相較于日常應(yīng)用,物理數(shù)據(jù)大量存在于傳統(tǒng)制造業(yè)中,一般有如下幾類數(shù)據(jù)采集方式:
各類傳感器:
正如上面提到的手機(jī)中各類傳感器,傳統(tǒng)制造業(yè)中的傳感器品類繁多,涵蓋光敏,氣敏,力敏,磁敏,聲敏等不同類別的工業(yè)傳感器,這部分的數(shù)據(jù)盡管單條數(shù)據(jù)內(nèi)容很少,但是頻率非常高。
RFID技術(shù):
RFID(Radio Frequency Identification,射頻識別)技術(shù)是一種非接觸式的自動識別技術(shù),通過射頻信號自動識別目標(biāo)對象并獲取相關(guān)的數(shù)據(jù)信息。利用射頻方式進(jìn)行非接觸雙向通信,達(dá)到識別目的并交換數(shù)據(jù)。
RFID技術(shù)可識別高速運(yùn)動物體并可同時識別多個標(biāo)簽,操作快捷方便。如下圖所示,我們用手機(jī)的NFC讀取的電子標(biāo)簽數(shù)據(jù),可以看到ISO/IEC 14443-3(Type A),這個是當(dāng)前電子標(biāo)簽的協(xié)議,目前大部分公交卡,一卡通,門禁卡等都是基于ISO 14443 Type A協(xié)議的,下方則是該電子標(biāo)簽的詳細(xì)信息,如果配合專業(yè)的讀寫器及特定的軟件可讀性會更好,在這里只是為大家展示一下。
由于各類設(shè)備品牌類型繁多,廠家和數(shù)據(jù)接口各異,有可能一套生產(chǎn)線的設(shè)備來自于好幾個國家,數(shù)據(jù)采集一直是傳統(tǒng)制造業(yè)的痛點。
4)APP數(shù)據(jù)
我們?nèi)粘I钪?,在各類App,Web端應(yīng)用,小程序上的操作行為稱為事件,例如打開某個電商App→瀏覽某個商品→查看商品信息,評論→放入購物車→下單→支付→查看物流信息→確認(rèn)收貨→對商品進(jìn)行評價。當(dāng)事件被觸發(fā)時,我們想進(jìn)行監(jiān)控,那么只需要研發(fā)為事件植入監(jiān)控代碼,這樣每當(dāng)事件觸發(fā)時,后臺就可以采集該事件的相關(guān)信息,上傳到服務(wù)器。
關(guān)于數(shù)據(jù)埋點,是互聯(lián)網(wǎng)業(yè)務(wù)中比較重要的一部分,由于篇幅所限,這里簡單的介紹一下,這里筆者現(xiàn)挖個坑,后續(xù)會專門出一個系列,詳細(xì)與讀者對數(shù)據(jù)埋點進(jìn)行探討與交流。一般來說,埋點類型分為Web埋點和App埋點,其中主要的埋點技術(shù)又分為有埋點技術(shù),無埋點技術(shù),可視化埋點等。
- 有埋點技術(shù):開發(fā)手動在程序中寫代碼實現(xiàn)埋點,通過用戶觸發(fā)某個行為后,程序自動發(fā)送數(shù)據(jù);
- 無埋點技術(shù):前端自動采集全部事件,當(dāng)事件觸發(fā)時就會調(diào)用相關(guān)接口上報數(shù)據(jù),流量與采集數(shù)量教育龐大。
- 可視化埋點:近年主流的埋點趨勢,以前端可視化的方式,通過可視化的界面拖拽配置實現(xiàn),由于活動控件元素都帶有唯一標(biāo)識。通過埋點配置后臺,將元素與要采集事件關(guān)聯(lián)起來,可以自動生成埋點代碼嵌入到頁面中。
2. 線下采集
關(guān)于線下采集數(shù)據(jù),筆者認(rèn)為更傾向于主觀性數(shù)據(jù)的采集,因為定量,客觀的數(shù)據(jù)公共場所面對面的線下采集,易使被采集者產(chǎn)生戒備感,非常容易造成數(shù)據(jù)采集準(zhǔn)確程度非常差,影響數(shù)據(jù)質(zhì)量,比如:筆者讀書時參與過線下的數(shù)據(jù)采集,某市交通規(guī)劃部門在火車站,地鐵換乘站等交通樞紐隨訪乘客去填寫出行調(diào)查問卷,盡管問卷設(shè)計的如何規(guī)范與精良,在填寫完成后進(jìn)行獎勵等方法,乘客填寫接受程度依舊很低。
所以后期此種采集方式也在調(diào)整改革,例如:定量,客觀數(shù)據(jù)采用線上收集,通過與三大運(yùn)營商合作,利用手機(jī)信令與基站的關(guān)系精確獲得乘客們的出行記錄。
另外,同學(xué)們經(jīng)常在商場,超市看到各類銀行宣傳辦信用卡的活動點,在現(xiàn)場填寫資料,辦理信用卡都可以獲得禮品獎勵,但是盡管如此通過觀察行人接受程度較差,筆者的學(xué)校/公司食堂也舉辦過類似的活動,但對比之下填寫調(diào)查問卷的意愿更為強(qiáng)烈。
線下采集數(shù)據(jù)的方式有很多種,例如:問卷調(diào)查,用戶訪談,實地調(diào)研,焦點小組,用戶反饋等等,接下來選取幾個常用的方式進(jìn)行介紹。
1)問卷調(diào)查
問卷調(diào)查是目前廣泛采用的調(diào)查形式,根據(jù)調(diào)研目的設(shè)計問卷,并采用抽樣方式確定調(diào)查樣本,完成調(diào)查。問卷調(diào)查的步驟一般為:確定用戶及樣本量(根據(jù)調(diào)查目標(biāo)選擇符合特征的用戶,盡可能多的涵蓋符合目標(biāo)的各類人群)——設(shè)計調(diào)查問卷框架——發(fā)放問卷(試調(diào)研/正式調(diào)研)——匯總數(shù)據(jù),撰寫報告
2)用戶訪談
用戶訪談是用戶研究中非常常用的一種方式,運(yùn)用有目的,有計劃,有方法的口頭交談向用戶了解事實的方法。一般用戶訪談的步驟為:確定調(diào)研的目標(biāo)與內(nèi)容——確定用戶和樣本——確定訪談與提綱——進(jìn)行訪談——匯總報告
三、采集數(shù)據(jù)類別
當(dāng)我們通過上述方式采集數(shù)據(jù)后,獲取的數(shù)據(jù)一般有三種類型,即結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)。關(guān)于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),我們在上文《10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(二)》提過,大家有興趣可以點擊查看。
那么何為半結(jié)構(gòu)化數(shù)據(jù)呢?
半結(jié)構(gòu)化數(shù)據(jù),顧名思義就是介于結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫)和非結(jié)構(gòu)化數(shù)據(jù)(聲音,視頻)之間的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層。下圖所示就是JSON簡單實例,我們可以觀察發(fā)現(xiàn)其存儲這某些書籍信息,一般日志文件,XML文檔,JSON文檔等就是半結(jié)構(gòu)化數(shù)據(jù)。
四、小結(jié)
本文帶領(lǐng)大家快速了解各類數(shù)據(jù)采集方式,各類采集技術(shù)固然重要,但要結(jié)合所在行業(yè),所在企業(yè)規(guī)模情況進(jìn)行選取,減少“殺雞焉用牛刀”的情況出現(xiàn)。
隨著國家安全重要性及居民個人隱私觀念的提升,在保證數(shù)據(jù)采集的精確性的同時,更應(yīng)注意數(shù)據(jù)采集中如何保護(hù)用戶隱私問題的情況以及涉及到國家關(guān)鍵基礎(chǔ)設(shè)施相關(guān)數(shù)據(jù)的安全性。
筆者在寫這篇文章時,朋友正好像我推送微信公眾號的一片關(guān)于Flightradar24涉及信息安全違規(guī)下架的文章,筆者與朋友對無線電以及AIS系統(tǒng)較為感興趣,深知此類數(shù)據(jù)的重要性。
本篇文章就寫到這里,關(guān)于數(shù)據(jù)分析,數(shù)據(jù)產(chǎn)品相關(guān)的知識筆者會繼續(xù)與大家分享交流,文中不準(zhǔn)確的地方歡迎并希望大家批評指正。
本文由 @快樂的給予 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels,基于 CC0 協(xié)議
IOTOS通采引擎(PBOX)是一款物聯(lián)網(wǎng)邊緣計算智能硬件,側(cè)重子系統(tǒng)接口協(xié)議轉(zhuǎn)換,可用于工業(yè)或信息化系統(tǒng)集成項目中,向下打通多設(shè)備系統(tǒng)、向上提供標(biāo)準(zhǔn)數(shù)據(jù)接口。內(nèi)置多種接口協(xié)議驅(qū)動,支持即插即用、一鍵適配。結(jié)合特有的生態(tài)化驅(qū)動開發(fā)技術(shù)服務(wù),可實現(xiàn)高效率、低成本、低門檻解決物聯(lián)網(wǎng)多源異構(gòu)數(shù)據(jù)接入繁瑣的問題,為上層系統(tǒng)提供統(tǒng)一支撐。
期待埋點的文章 關(guān)注你了哈哈哈
隨著國家安全重要性及居民個人隱私觀念的提升,在保證數(shù)據(jù)采集的精確性的同時,更應(yīng)注意數(shù)據(jù)采集中如何保護(hù)用戶隱私問題的情況以及涉及到國家關(guān)鍵基礎(chǔ)設(shè)施相關(guān)數(shù)據(jù)的安全性。
數(shù)據(jù)分析如果用的不好,會有大亂子的,我們要注意使用。
雖然爬蟲技術(shù)十分方便好用,但是運(yùn)用時一定要遵守法律法規(guī),不能做觸犯法律紅線的事情。
半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層。
”采集的數(shù)據(jù)決定了數(shù)據(jù)分析挖掘的上限“這句話說的好,任何的結(jié)論都需要堅實的論據(jù)支撐
爬蟲一定不能觸及法律紅線,爬蟲技術(shù)雖然便捷,但是也有很大的隱患