從負基礎(chǔ)起步,掌握數(shù)據(jù)分析技能
筆者向我們說明了學(xué)會數(shù)據(jù)分析對于運營人的重要性,并介紹了如何掌握數(shù)據(jù)分析技能。
作為一個在大學(xué)與統(tǒng)計、數(shù)學(xué)、計算機這些學(xué)科完全絕緣的語言學(xué)專業(yè)的畢業(yè)僧,同時又是一個從醫(yī)療銷售半路出家轉(zhuǎn)行到互聯(lián)網(wǎng)的產(chǎn)品運營。連數(shù)據(jù)零基礎(chǔ)都算不上,到現(xiàn)在玩得轉(zhuǎn)SQL,寫得了代碼,利用這些工具極大地提升了工作效率,也幫助我獲得了更多的職場機會。
這篇文章來說下,怎么掌握數(shù)據(jù)分析技能。
一、為什么學(xué)習(xí)數(shù)據(jù)分析
1. 運營的尷尬:運營人需要一個硬技能
每個初入行的新人都會察覺到,運營是一個似乎并沒有自己的核心競爭力和安全感的工作。因為每天的工作好像都被各種瑣事所圍繞,而只有一個主題是永恒不變的,那就是——提需求,不斷地提各種需求。
運營人需要一個硬核技能,提升自己的職業(yè)價值,提高自己的職業(yè)安全感,而不是每天都在各種的等排期:數(shù)據(jù)分析排期、產(chǎn)品設(shè)計排期、UI排期、開發(fā)排期。
運營迫切需要通過利用SQL/Python等工具,從數(shù)據(jù)中及時發(fā)現(xiàn)更多的業(yè)務(wù)價值,提高自己的產(chǎn)出。
2. 數(shù)據(jù)分析的前景
這幾年隨著人工智能的火熱,數(shù)據(jù)分析技能也逐漸受到了更多的認可。從國外BA專業(yè)申請和國內(nèi)數(shù)據(jù)分析培訓(xùn)的火熱也可見一斑。但對于在職人士,從單純的技能習(xí)得角度去看,BA的能力完全是可以自學(xué)獲得的。
我認為:未來數(shù)據(jù)分析能力在運營人的能力模型中的比重仍會繼續(xù)加大,將來甚至?xí)D壓數(shù)據(jù)分析師的需求和生存空間。所以,對于數(shù)據(jù)分析,前景很好;而數(shù)據(jù)分析師,前景并不樂觀。
二、學(xué)習(xí)數(shù)據(jù)分析需要做的準備
1. 明確方向
數(shù)據(jù)分析有兩個方向:
- 業(yè)務(wù)向:如數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)分析師,對技術(shù)要求并不那么高;
- 技術(shù)向:需要懂?dāng)?shù)據(jù)挖掘、算法等,對技術(shù)的要求較高。
從自己的定位來看,并不打算做數(shù)據(jù)挖掘,因為自己的知識結(jié)構(gòu)和時間上的投入產(chǎn)出比可能并不太高。主要希望通過數(shù)據(jù)分析技能,增強自己作為產(chǎn)品運營的競爭力。
2. 做好持久戰(zhàn)準備
于我一個沒有任何基礎(chǔ)的純小白而言,并不是能速成的,需要做好持續(xù)學(xué)習(xí)的準備。
三、做好數(shù)據(jù)分析需要具備哪些技能
- 統(tǒng)計學(xué)基礎(chǔ)知識
- Excel的熟練使用
- SQL
- Python
- 分析方法和思維
- 對業(yè)務(wù)的充分理解
從自身來看,主要需要彌補的為:SQL+Excel+統(tǒng)計+Python。主要以看書為主,視頻為輔,不需要報任何的培訓(xùn)班。
1. SQL
SQL大概是互聯(lián)網(wǎng)公司做數(shù)據(jù)分析用到的最多、最重要的工具了。在整個數(shù)據(jù)分析過程中,用SQL提取數(shù)據(jù),可能要占到整個數(shù)據(jù)分析過程的50%-80%,以至于很多數(shù)據(jù)分析師都被戲稱為“SQL Boy/Girl”。
MySQL數(shù)據(jù)庫的功能可以用四個字概括:增刪改查。
但是對于我們來說,我們能用到的只會有數(shù)據(jù)庫查詢功能,其它權(quán)限是不可能開放給你的。
如果數(shù)據(jù)庫你覺得生澀的話,可以這么理解:
- SQL? 就是一條存取數(shù)據(jù)的命令;
- 數(shù)據(jù)庫? 就相當(dāng)于一個文件夾;
- 數(shù)據(jù)表? 就相當(dāng)于文件夾內(nèi)的一個Excel文件。
表名就是文件名;表中的每一列有一個名字,就是列名,也可以成為字段。
SQL的學(xué)習(xí)可以分為三塊:
- 簡單查詢
- 關(guān)聯(lián)查詢
- 函數(shù)引用
什么是查詢呢?
在數(shù)據(jù)庫建立之后,通過sql命令里最常用的語句SELECT,讓我們查看數(shù)據(jù)庫里保存的數(shù)據(jù),并可以進行一定的分析和歸納。
(1)簡單查詢
SELECT語句的完整格式包含6個子句:
- FROM 子句:查詢數(shù)據(jù)的表,指定數(shù)據(jù)的來源;
- WHERE 子句:查詢數(shù)據(jù)的過濾條件;
- GROUP BY 子句:對匹配 WHERE 子句的查詢結(jié)果進行分組;
- HAVING 子句:對分組后的結(jié)果進行條件限制;
- ORDER BY 子句:對查詢結(jié)果進行排序,后面跟 DESC 降序或 ASC 升序(默認);
- LIMIT 子句:對查詢的顯示結(jié)果限制行數(shù)。
(2)關(guān)聯(lián)查詢
如果要進行多表查詢,就需要用到連接。
連接查詢是把兩個或多個表連接在一起來獲取數(shù)據(jù),是關(guān)系型數(shù)據(jù)庫中最主要的查詢。表的連接方式主要包括內(nèi)連接、外連接和交叉連接等。
- from 指定查詢表名、并給出別名;
- left join 左外連接,左表全部記錄及右表匹配記錄出現(xiàn)在查詢結(jié)果中;
- inner join 內(nèi)連接,左表和右表共同的記錄出現(xiàn)在查詢結(jié)果中;
- right join 右外連接,右表全部記錄及左表匹配記錄出現(xiàn)在查詢結(jié)果中;
- on 指定關(guān)聯(lián)條件。
表連接后的結(jié)果可以通過這個圖清晰地展示出來:
(3)函數(shù)引用
利用函數(shù)可以提高sql的效率,經(jīng)常用到的函數(shù)主要有:
- 邏輯運算:and、or、not;
- 數(shù)值運算:round、floor、ceil、rand、exp、sqrt等;
- 日期函數(shù):from_unixtime、unix_timestamp、year、month、day、hour、minute、second、weekofyear、detediff、date_add、date_sub等;
- 條件函數(shù):if、coalesce、case when等;
- 字符串函數(shù):concat、substr、trim、reverse、split等;
- 集合統(tǒng)計函數(shù):count、sum、max、min、percentile等。
推薦書目:
推薦下我們部門每個運營同學(xué)人手一本的必備書目:《SQL必知必會》
經(jīng)典習(xí)題:https://blog.csdn.net/flycat296/article/details/63681089
Hive:
隨著數(shù)據(jù)量的不斷增加,很多時候mysql已經(jīng)滿足不了數(shù)據(jù)需要,很多公司開始使用hive或者presto。其實有了SQL的基礎(chǔ),HIVE學(xué)習(xí)還是比較簡單的。
推薦書目:《HIVE編程指南》。
重點看下HQL的數(shù)據(jù)操作、查詢、調(diào)優(yōu)部分,與mySQL大同小異,只是一些語法需要單獨注意下即可。
2. Excel
Excel大家多少都會一些,它的功能很強大,但是絕大多數(shù)人,可能使用了它的1%功能都不到。
Excel 可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策等。
作為常用的數(shù)據(jù)處理和展現(xiàn)工具,我們除了要熟練使用Excel 的函數(shù)和數(shù)據(jù)透視表等操作工具外,更重要的是,利用好Excel 的可視化,用圖表將結(jié)論展現(xiàn)出來,這樣分析和可視化能力會得到迅速提高。
SQL+Excel可以說是數(shù)據(jù)分析的必備神器。
推薦書目:《誰說菜鳥不會數(shù)據(jù)分析》。
這本書不只是介紹Excel的功能,更重要的是介紹一些實踐場景中數(shù)據(jù)分析的步驟和思路,對于初學(xué)者有很大的指導(dǎo)意義。
3. 統(tǒng)計學(xué)
統(tǒng)計學(xué)是數(shù)據(jù)分析的理論基礎(chǔ),可以使數(shù)據(jù)分析更加系統(tǒng)化。
沒有統(tǒng)計學(xué)基礎(chǔ)的數(shù)據(jù)分析師的職業(yè)發(fā)展之路不會長遠,因為在工作中可能會常常遇到不知道該用什么方法找尋數(shù)據(jù)規(guī)律的瓶頸,因此掌握數(shù)據(jù)分析的統(tǒng)計學(xué)基礎(chǔ)知識是成為一名優(yōu)秀數(shù)據(jù)分析師的基礎(chǔ)。
主要需要掌握:
- 用于集中趨勢分析的平均數(shù)、中數(shù)、眾數(shù);
- 用于離中趨勢分析的全距、 四分差、平均差、方差、標準差;
- 研究現(xiàn)象之間是否存在某種依存關(guān)系的相關(guān)分析;
- 確定兩種或 兩種以上變數(shù)間相互依賴的定量關(guān)系的回歸分析;
- 揭示同一個變量的各個類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系的關(guān)聯(lián)分析、R-Q 型因子分析;
- 研究從變量群中提取共性因子 的因子分析;
- 用于兩個及以上樣本均數(shù)差別的顯著性檢驗的方差分析;
- 概率及分布、參數(shù)估計、 假設(shè)檢驗等等經(jīng)典統(tǒng)計學(xué)內(nèi)容。
很多人都推薦《商務(wù)與經(jīng)濟統(tǒng)計》,說實話,這本書對小白并不友好。
我的進階路徑是:《赤裸裸的統(tǒng)計學(xué)》→《深入淺出統(tǒng)計學(xué)》→《商務(wù)與經(jīng)濟統(tǒng)計》
前面兩本書更加有趣味性,對于小白,更容易理解,不至于讓你很快從學(xué)習(xí)到放棄。
3. Python
說實話,互聯(lián)網(wǎng)行業(yè)日常的數(shù)據(jù)分析中用到python的機會并不多,SQL+Excel可以說能解決95%的工作需要。另外5%主要是在數(shù)據(jù)量較大,SQL已經(jīng)無法滿足工作需要時,那么Python大法就該出場了。
我們分析一般都是有了現(xiàn)成的公司數(shù)據(jù),很少有從外部獲取的,所以爬蟲,可以暫時先不學(xué),有需要的話,先找爬蟲插件搞定即可。
主要學(xué)習(xí)python基礎(chǔ)和數(shù)據(jù)分析的幾個包。
作為一個沒有編程、數(shù)學(xué)、統(tǒng)計基礎(chǔ)的小白,我是從《父與子的編程之旅》開始看的,這本書對我這種完全負基礎(chǔ)的人,真是極度友好??梢哉f,看了很多推薦的書和視頻,最開始學(xué)習(xí)的時候,只有這一本書是我可以看懂,而且看得下去的。
這本書看完后,又對照《笨方法學(xué)python》做了些題目,然后可以進入python數(shù)據(jù)分析的學(xué)習(xí),主要是《利用python進行數(shù)據(jù)分析》,主要掌握numpy、pandas、Matplotlib庫等。
附上我很早之前的一個非常簡單的練習(xí):https://zhuanlan.zhihu.com/p/33390208。
四、總結(jié)
最后總結(jié)下來,整個時間段,基本可以分為:
- SQL:學(xué)習(xí)1個月,專門練習(xí)1個月,另加工作中持續(xù)練習(xí);
- Excel:學(xué)習(xí)2周,專門練習(xí)1周;
- 統(tǒng)計學(xué):學(xué)習(xí)2個月;
- Python:學(xué)習(xí)6個月,一直在練習(xí)。
數(shù)據(jù)分析是產(chǎn)品經(jīng)理和產(chǎn)品運營都必須具備的能力之一,隨著科技的發(fā)展,不懂技術(shù)的運營和產(chǎn)品終將要被淘汰。
現(xiàn)在稀缺的技能,在未來,一定會成為必備的一項基礎(chǔ)素質(zhì)。
我們應(yīng)該面向未來去學(xué)習(xí)。
一起加油~~
本文由@從南 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash, 基于CC0協(xié)議
不懂技術(shù)的運營和產(chǎn)品終將要被淘汰,贊同
條理很清晰,觀點很明確,深入淺出,看得出來是一個非常實干而且積極的寶寶
不錯不錯??
花里胡哨