這篇文章把數據講透了(二):數據采集

2 評論 11189 瀏覽 48 收藏 9 分鐘

編輯導讀:隨著“數智化”時代的到來,我們生活中的方方面面都離不開數據,而你真的了解數據嗎?本文將為你重新解讀數據的概念和價值,以及數據的價值是如何在“數智化”時代下一步一步得到運用與升華的;因內容頗多,筆者將分幾期為大家進行講解。

一、前言

上一期文章中,我們已經了解到“數據”是一個龐大的體系(如下圖所示)這篇文章把數據講透了(一):數據來源;并用了菜市場的例子,為大家講解數據來源的含義;而今天小陳主要給大家到了指定“菜市場”后,我們怎樣“買菜”,即數據采集的過程。

二、數據采集(買菜)

首先,我們先對數據采集的方式進行一個簡單的分類介紹,后面分別介紹每一種數據采集形式需要注意的要點。

1. 按數據采集方式

線下(問卷、實地調研)——注意要點:遵循5大要素!

5個要素:

1)緊緊圍繞研究主題和目的

評價一份問卷調查優劣程度的準則中很重要的一點就是,問卷內容是否貼合研究主題,就算一份問卷設計得再精妙,如果與主題無關,也是毫無價值的,因為我們開展問卷調查的本質目的也是調查相關要素和調研群體背后千絲萬縷的聯系。

例如,調查用戶滿意度,一般涉及到產品本身(價格、包裝等)和受眾特點(年齡、地域、心理滿足等)兩個維度。

2)題目易讀、易理解、且具有一般性

問卷分發后,是需要受眾進行填寫的,所以問卷的易理解程度也最終決定者問卷的質量。

問卷并不是學術論文,不需要為了彰顯專業素養而涉及很多專業、晦澀難懂的詞匯,讓調查者能夠真的看懂才是關鍵。

而一般性則指的是這個問題的設置是否對所有受眾都具普遍意義。例如,調查居民出行方式的問卷中,你認為最安全的交通工具是,A火車 B飛機 C寶馬小轎車 D電動車,我們可以看到C選項不具有普遍意義,且和A、B、D不是一個維度的選項。

3)充分考慮被調者特點

在使用問卷調查方式時,要充分結合被調群體的特色,來進行問卷的設置;例如針對學齡前兒童和老年人,則不宜采取書面問卷調研的形式,要充分考慮到他們的語言偏好(有些老人可能普通話不標準,但方言流利)、對內容的理解能力,再派出訪談調研小組進行調研。

4)充分考慮問題排序(循序漸進)

問卷問題的設置除了考慮每個問題的規范性、合理性外,還需要考慮到問題與問題之間的邏輯性和連貫性,避免時間、空間、人稱等維度的頻繁跳躍。

5)充分考慮統計便利性

除了考慮問卷調查的受眾外,問卷設置還需要充分考慮后期問卷回收后的統計分析;盡可能減少后期工作壓力,變量不宜設置太多,應該用盡量少的變量高效獲取標簽信息,幫助后期研究定性。

線上(按數據采集端口細分為APP端和網頁端)

APP端(主)——數據埋點獲得相關數據:

首先,先和大家科普一下,數據埋點到底是什么?以及APP端為何要特別重視數據埋點。

其實,所謂埋點就是在用戶使用APP的過程中,對他們的一系列行為數據進行收集,以優化產品和運營;而大多APP自帶服務和盈利性質(如淘寶、得到等),那么想要實現轉化,引導購買就需要將“點”埋到具體的交互組件上(例如,點擊跳轉鏈接、購買按鈕等),然后對PV、UV;停留時間、跳出率、購買率等指標進行量化。

就埋點的形式而言,主要分為以下三種:

代碼埋點:控件操作發生時通過預先寫好的代碼來發送數據,目前百度統計、友盟都提供這一服務。

下面舉一個例子,例如,我們想統計淘寶APP里面加入購物車這個按鈕的點擊次數,則在其被點擊時,可以在這個按鈕對應的 OnClick 函數里面調用SDK提供的數據發送接口來發送數據。

優點:控制發送數據時間,事件自定義屬性詳細記錄;缺點:時間、人力成本大,數據傳輸的時效性。

可視化埋點:利用可視化交互手段,通過可視化界面配置控件操作與事件操作發生關系,通過后臺截屏的方式采集數據;例如,當用戶產生多次刷新這一行動時,結合大數據算法,推算出用戶的喜好并切換推送內容、產品,再通過可視化埋點,自動切換到對應的個性化推薦內容頁面。

優點:成本低,速度快,產品、市場等各部門均能參與;缺點:行為記錄信息少,支持的分析方式少,減輕開發負擔。

無埋點:用戶展現UI界面元素時,平臺會通過控件綁定觸發事件,事件被觸發的時候系統會有相應的接口讓開發者處理這些行為;上傳UI界面后,系統能夠自動識別生成控件的唯一ID,ID是在程序內部生成,只需保證在不同的手機上面這些ID是一樣的,就能實現用戶端的無埋點數據獲取。

優點:無需埋點,方便快捷;缺點:行為記錄信息少,傳輸壓力大。

網頁端——網頁爬蟲(python,C…):

就具體語法而言,因為使用工具不同,并不能就具體語法提供指導(大家根據自己使用的語言,在CSDN上進行搜索),但其總體方法論是一致的。

方法論:人工確定爬取信息的維度→分析目標網站URL構成→確認爬取工具→編寫程序語言→獲取數據→保存于本地→后續進行數據挖掘。

三、結語

本期,筆者通過一個“買菜”的例子,帶著大家了解了數據采集的幾種方式,相信大家有所收獲!

下期,筆者講在數據采集的基礎上,為大家講解如何利用常用工具進行數據清洗和數據清洗的幾個維度!

 

本文由 @小陳同學ing. 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 第二部分零零散散….有1,就沒然后了

    來自上海 回復
  2. 后面啥時候可以更新?

    回復