互聯網數據分析能力的養成,需一份七周的提綱

65 評論 139049 瀏覽 1459 收藏 18 分鐘

寫這個系列,是希望在當初知乎某一個回答的基礎上,單獨完善出針對互聯網產品和運營們的教程。不論對數據分析或數據運營,我都希望它是一篇足夠好的教材。更準確地說,這是一份七周的互聯網數據分析能力養成提綱。

我會按照提綱針對性的增加互聯網側的內容,比如網站分析,用戶行為序列等。我也不想留于表面,而是系統性講述。比如什么是產品埋點?在獲得埋點數據后,怎么利用Python / Pandas的shift ( )函數將其清洗為用戶行為session,進而計算出用戶在各頁面的停留時間,后續如何轉換成統計寬表,如何以此建立用戶標簽等。

下面是各周的學習概述。

第一周:Excel學習掌握

如果Excel玩的順溜,你可以略過這一周。不過介于我入行時也不會vlookup,所以有必要講下。

重點是了解各種函數,包括但不限于sum,count,sumif,countif,find,if,left/right,時間轉換等。

Excel函數不需要學全,重要的是學會搜索。即如何將遇到的問題在搜索引擎上描述清楚。

我認為掌握vlookup和數據透視表足夠,是最具性價比的兩個技巧。

學會vlookup,SQL中的join,Python中的merge很容易理解。

學會數據透視表,SQL中的group,Python中的pivot_table也是同理。

這兩個搞定,基本10萬條以內的數據統計沒啥難度,80%的辦公室白領都能秒殺。

Excel是熟能生巧,多找練習題。還有需要養成好習慣,不要合并單元格,不要過于花哨。表格按照原始數據(sheet1)、加工數據(sheet2),圖表(sheet3)的類型管理。

下面是為了以后更好的基礎而附加的學習任務:

  • 了解單元格格式,后期的數據類型包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 了解數組,以及怎么用(excel的數組挺難用),Python和R也會涉及到 list。
  • 了解函數和參數,當進階為編程型的數據分析師時,會讓你更快的掌握。
  • 了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以后你會回來感謝我的。

這一周的內容我會拆分成兩部分:函數篇和技巧篇。

這是一道練習題,我給你1000個身份證號碼,告訴我里面有多少男女,各省市人口的分布,這些人的年齡和星座。如果能完成上述過程,那么這一周就直接略過吧。(身份證號碼規律可以網上搜索)

第二周:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。數據可視化是數據分析的主要方向之一。除掉數據挖掘這類高級分析,不少數據分析就是監控數據觀察數據。

數據分析的最終都是要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老板看。如果沒人認同分析結果,那么分析也不會被改進和優化,不落地的數據分析價值又在哪里?

首先要了解常用的圖表:

0 (2)

Excel的圖表可以100%完成上面的圖形要求,但這只是基礎。后續的進階可視化,勢必要用到編程繪制。為什么?比如常見的多元分析,你能用Excel很輕松的完成?但是在IPython只需要一行代碼。

0 (1)

其次掌握BI,下圖是微軟的BI。

f3f96c223a492c62ce376544a7c2f0fd_b

BI(商業智能)和圖表的區別在于BI擅長交互和報表,更擅長解釋已經發生和正在發生的數據。將要發生的數據是數據挖掘的方向。

BI的好處在于很大程度解放數據分析師的工作,推動全部門的數據意識,另外降低其他部門的數據需求(萬惡的導數據)。

BI市面上的產品很多,基本都是建立儀表盤Dashboard,通過維度的聯動和鉆取,獲得可視化的分析。

最后需要學習可視化和信息圖的制作。

0

這是安(裝)身(逼)立(加)命(薪)之本。這和數據本事沒有多大關系,更看重審美、解讀、PPT、信息化的能力。但值得花一點時間去學習。

數據可視化的學習就是三個過程:

  • 了解數據(圖表)
  • 整合數據(BI)
  • 展示數據(信息化)

第三周:分析思維的訓練

這周輕松一下,學學理論知識。

好的數據分析首先要有結構化的思維,也就是我們俗稱的金字塔思維。思維導圖是必備的工具。

之后再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。

分析也是有框架和方法論的,主要圍繞三個要點展開:

  • 一個業務沒有指標,則不能增長和分析;
  • 好的指標應該是比率或比例;
  • 好的分析應該對比或關聯。

舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎么分析?

  • 這1000人的數量,和附近其他超市比是多是少?(對比)
  • 這1000人的數量比昨天多還是少?(對比)
  • 1000人有多少產生了實際購買?(轉化比例)
  • 路過超市,超市外的人流是多少?(轉化比例)

這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。

優秀的數據分析師會拷問別人的數據,而他本身的分析也是經得起拷問,這就是分析思維能力。需要確切明白的是,一周時間鍛煉不出數據思維,只能做到了解。數據思維是不斷練習的結果,我只是盡量縮短這個過程。

第四周:數據庫學習

Excel對十萬條以內的數據處理起來沒有問題,但是互聯網行業就是不缺數據。但凡產品有一點規模,數據都是百萬起。這時候就需要學習數據庫。

越來越多的產品和運營崗位,會在招聘條件中,將會SQL作為優先的加分項。

SQL是數據分析的核心技能之一,從Excel到SQL絕對是數據處理效率的一大進步。

學習圍繞Select展開。增刪改、約束、索引、數據庫范式均可以跳過。

主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等。

如果想要跟進一步,可以學習row_number,substr,convert,contact等。另外不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。

再有點追求,就去了解Explain優化,了解SQL的工作原理,了解數據類型,了解IO。以后就可以和技術研發們談笑風生,畢竟將“這里有bug”的說話,換成“這塊的數據死鎖了”,逼格大大的不同。

SQL的學習主要是多練,網上尋找相關的練習題,刷一遍就差不多了。

第五周:統計知識學習

很遺憾,統計知識也是我薄弱的地方,可這是數據分析的基礎。

我看過很多產品和運營相關的數據分析文章,沒有多少提及統計知識。這是不嚴謹的。

比如產品的AB測試,如果產品經理并不清楚置信度的含義和概念,那么好的效果并不意味著真正的好。尤其是5%這種非顯著的提高。

比如運營一次活動,運營若不了解檢驗相關的概念,那么如何去判別活動在數據上是有效果還是沒有效果?別說平均數。

再討論一下經典的概率問題,如果一個人獲流感,實驗結果為陽性的概率為90%;如果沒有獲流感,實驗結果為陽性的概率為9%?,F在這個人檢驗結果為陽性,他有多少幾率是得了流感?

如果你覺得幾率有50%、60%、70%等等,那么都犯了直覺性的錯誤。它還和得病的基礎概率有關。

統計知識會教我們以另一個角度看待數據。如果大家了解過《統計數據會撒謊》,那么就知道很多數據分析的決策并不牢靠。

我們需要花一周的時間掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。

不需要學習更高階的統計知識,誰讓我們是速成呢。只要做到不會被數據欺騙,不犯錯誤就好。

以Excel的分析工具庫舉例(圖片網上找來)。在初級的統計學習中,需要了解列1的各名詞含義,而不是停留在平均數這個基礎上。

9cce8bdc0d4484c62ab68228dd77822e_b

第六周:業務知識(用戶行為、產品、運營)

這一周需要了解業務。對于數據分析師來說,業務的了解比數據方法論更重要。當然很遺憾,業務學習沒有捷徑。

我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低于其他城市,導致用戶的好評率降低??偛康臄祿治鰩熃⒘烁鱾€指標去分析原因,都沒有找出來問題。后來在訪談中發覺,因為重慶是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。

這個案例中,我們只知道送貨員的送貨水平距離,即POI數據,根本不可能知道垂直距離的數據。這就是數據的局限,也是只會看數據的分析師和接地氣分析師的最大差異。

對業務市場的了解是數據分析在工作經驗上最大的優勢之一。不同行業領域的業務知識都不一樣,我就不獻丑了。在互聯網行業,有幾個寬泛的業務數據需要了解。

產品數據分析,以經典的AAARR框架學習,了解活躍留存的指標和概念(這些內容,我的歷史文章已經涉及了部分)。

并且數據分析師需要知道如何用SQL計算。因為在實際的分析過程中,留存只是一個指標,通過userId 關聯和拆分才是常見的分析策略。

網站數據分析,可以抽象吃一個哲學問題:

用戶從哪里來(SEO/SEM),用戶到哪里去(訪問路徑),用戶是誰(用戶畫像/用戶行為路徑)。

雖然網站已經不是互聯網的主流,但現在有很多APP+Web的復合框架,朋友圈的傳播活動肯定需要用到網頁的指標去分析。

用戶數據分析,這是數據化運營的一種應用。

在產品早期,可以通過埋點計算轉化率,利用AB測試達到快速迭代的目的,在積累到用戶量的后期,利用埋點去分析用戶行為,并且以此建立用戶分層用戶畫像等。

例如用貝葉斯算法計算用戶的性別概率,用K聚類算法劃分用戶的群體,用行為數據作為特征建立響應模型等。不過快速入門不需要掌握這些,只需要有一個大概的框架概念。

除了業務知識,業務層面的溝通也很重要。在業務線足夠長的時候,我不止一次遇到產品和運營沒有掌握所有的業務要點,尤其涉及跨部門的分析。良好的業務溝通能力是數據分析的基礎能力。

第七周:Python/R 學習

終于到第七周,也是最痛苦的一周。這時應該學習編程技巧。

是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘,爬蟲,可視化報表都需要用到編程能力(例如上文的多元散點圖)。掌握一門優秀的編程語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。

以時下最熱門的R語言和Python為學習支線,速成只要學習一條。

我剛好兩類都學過。R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,SKLearn等各包也已經追平R。

學習R,需要了解數據結構(matrix,array,data.frame,list等)、數據讀取,圖形繪制( ggplot2)、數據操作、統計函數(mean,median,sd,var,scale等)。高階的統計暫時不用去涉及,這是后續的學習任務。

R語言的開發環境建議用RStudio。

學習Python有很多分支,我們專注數據分析這塊。需要了解調用包、函數、數據類型(list,tuple,dict),條件判斷,迭代等。高階的Numpy和Pandas在有精力的情況下涉及。

Python的開發環境建議Anaconda,可以規避掉環境變量、包安裝等大部分新手問題。Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,沒有編碼問題,就不要抱成守舊了。

對于沒有技術基礎的運營和產品,第七周最吃力,雖然SQL+Excel足夠應付入門級數據分析,但是涉及到循環迭代、多元圖表的分析部分,復雜度就呈幾何上升。更遑論數據挖掘這種高階玩法。

我也相信,未來了解數據挖掘的產品和運營會有極強的競爭力。

到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟這只是目的性極強的速成,是開始,而不是數據分析的畢業典禮。

如果希望數據分析能力更近一步,或者成為優秀的數據分析師,每一周的內容都能繼續學習至精通。實際上,業務知識、統計知識僅靠兩周是非常不牢固的。

再往后的學習,會有許多分支。比如偏策劃的數據產品經理,比如偏統計的機器學習,比如偏商業的市場分析師,比如偏工程的大數據工程師。這是后話了。

 

本文由 @秦路?原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 非常感謝

    來自北京 回復
    1. ?

      來自北京 回復
  2. 最近剛好在學習sql,老師說的很在理,可以作為小白系統化學習指導

    來自上海 回復
  3. 覆蓋的知識量有點多 我只會py3

    回復
  4. 加上作業,發你郵箱批改

    回復
  5. 比較系統化,對于沒有人帶的小白是個很好的學習資料,感謝作者分享,持續關注!

    來自湖南 回復
  6. 不過文章要是在能落地點兒,就更好了!讓小白可以一個階段一個階段的去學習!

    來自廣東 回復
  7. 文章相當不錯,寫的即精簡又統籌,相當于數據分析的一生!贊

    來自廣東 回復
  8. 大神,能推薦些書籍和教材嗎?

    來自北京 回復
    1. 1、excel:個人用excel2010應用大全,書有點厚,但是非常詳細,還有例題可以自己操作
      2、圖表:excel基本的都可以,然后可以在相關論壇看別人的圖表自己做做,然后了解一下echarts,tableau應該夠了,tableau網上有免費版和教程
      3、分析思維還是要多練習,個人覺得可以看MBA經典案例分析,這個不是很了解,不多說
      4、數據庫:sql必知必會,加上網上的50題,搞定基本差不多
      5、統計知識:商務與經濟統計學,應該是13版
      6、業務知識:產品的:增長黑客
      7、Python:利用Python進行數據分析,集體智慧編程,R:R IN ACTION
      希望有所幫助

      來自浙江 回復
    2. 你好 估計要多久才可以學會這么多知識

      來自上海 回復
  9. 有種慕然開朗的感覺,可以加下您的聯系方式嗎?

    來自廣東 回復
    1. 關注我公眾號私下問吧

      來自上海 回復
    2. 前輩,您的微信公眾號是什么???

      來自上海 回復
    3. tracykanc

      來自上海 回復
  10. 適用于商品運營么

    來自河南 回復
    1. 使用的

      來自上海 回復
  11. 為什么我看著都挺熟,大學學的數學+計算機+概率論,用過spss做實驗 ??

    來自廣東 回復
    1. 哈哈,那很棒啊

      來自上海 回復
  12. 感謝老師的指導?。?!

    來自四川 回復
  13. 小白有點看不懂了

    回復
    1. 看懂就不是小白了。 ??

      來自廣東 回復
    2. 好有道理的樣子

      來自浙江 回復
  14. 感覺很(高)懵(大)逼(上)~還能在柴米油鹽點嗎 ?? ?小白級別,讀著費點意思 ?

    來自北京 回復
    1. 會有啊

      來自上海 回復
  15. 膜拜~

    來自北京 回復
  16. 數據可視化有相關教程或數據推薦嗎?

    來自廣東 回復
    1. 是哪一類可視化?

      來自上海 回復
    2. 請問可視化的那些圖是如何制作的?

      回復
  17. 靜待

    來自北京 回復
  18. 大神,收下我的膝蓋,我要拜你為師。 ??

    來自廣東 回復
  19. 支持,期待教程。

    來自北京 回復
  20. 現在BI還有必要學習嗎?目前正在看統計、python中~~~

    來自上海 回復
    1. 主要就是免去了報表的工作,數據多了都會用bi的

      來自上海 回復
  21. 很贊的干貨,期待連載~~~

    來自北京 回復
  22. 非常贊!另外可否推薦下具體的教程或書籍?

    來自上海 回復
    1. 看想學哪一周的內容了

      來自上海 回復
  23. 補充一下,沒有做過數據分析的人,應該是看不懂的(TA只會覺得作者好牛逼)。所以作者可以考慮來個教程版。

    來自廣東 回復
    1. 已經在做啦

      來自上海 回復
    2. 好期待??!

      來自廣東 回復
  24. 真心寫的好。作者真牛!

    來自廣東 回復
  25. 很好的干貨,但就怕自己沒有毅力堅持過去QAQ

    來自上海 回復
  26. 受益匪淺,只是缺少一個老師,因為自學能力較差

    回復
    1. 哈哈我也是??

      回復
  27. 高級貨! ??

    來自廣東 回復
  28. 睡前看看。瞬間困了

    回復
  29. 我進來看評論的,竟然沒有

    回復
    1. 大家都默默收藏了

      來自上海 回復
    2. 我也收藏起來

      回復
    3. 我進來只看到你評論,沒有其他人

      回復
  30. 非常不錯哦~

    來自北京 回復