從負基礎(chǔ)起步,掌握數(shù)據(jù)分析技能

4 評論 11980 瀏覽 225 收藏 13 分鐘

筆者向我們說明了學(xué)會數(shù)據(jù)分析對于運營人的重要性,并介紹了如何掌握數(shù)據(jù)分析技能。

作為一個在大學(xué)與統(tǒng)計、數(shù)學(xué)、計算機這些學(xué)科完全絕緣的語言學(xué)專業(yè)的畢業(yè)僧,同時又是一個從醫(yī)療銷售半路出家轉(zhuǎn)行到互聯(lián)網(wǎng)的產(chǎn)品運營。連數(shù)據(jù)零基礎(chǔ)都算不上,到現(xiàn)在玩得轉(zhuǎn)SQL,寫得了代碼,利用這些工具極大地提升了工作效率,也幫助我獲得了更多的職場機會。

這篇文章來說下,怎么掌握數(shù)據(jù)分析技能。

一、為什么學(xué)習(xí)數(shù)據(jù)分析

1. 運營的尷尬:運營人需要一個硬技能

每個初入行的新人都會察覺到,運營是一個似乎并沒有自己的核心競爭力和安全感的工作。因為每天的工作好像都被各種瑣事所圍繞,而只有一個主題是永恒不變的,那就是——提需求,不斷地提各種需求。

運營人需要一個硬核技能,提升自己的職業(yè)價值,提高自己的職業(yè)安全感,而不是每天都在各種的等排期:數(shù)據(jù)分析排期、產(chǎn)品設(shè)計排期、UI排期、開發(fā)排期。

運營迫切需要通過利用SQL/Python等工具,從數(shù)據(jù)中及時發(fā)現(xiàn)更多的業(yè)務(wù)價值,提高自己的產(chǎn)出。

2. 數(shù)據(jù)分析的前景

這幾年隨著人工智能的火熱,數(shù)據(jù)分析技能也逐漸受到了更多的認可。從國外BA專業(yè)申請和國內(nèi)數(shù)據(jù)分析培訓(xùn)的火熱也可見一斑。但對于在職人士,從單純的技能習(xí)得角度去看,BA的能力完全是可以自學(xué)獲得的。

我認為:未來數(shù)據(jù)分析能力在運營人的能力模型中的比重仍會繼續(xù)加大,將來甚至?xí)D壓數(shù)據(jù)分析師的需求和生存空間。所以,對于數(shù)據(jù)分析,前景很好;而數(shù)據(jù)分析師,前景并不樂觀。

二、學(xué)習(xí)數(shù)據(jù)分析需要做的準備

1. 明確方向

數(shù)據(jù)分析有兩個方向:

  1. 業(yè)務(wù)向:如數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)分析師,對技術(shù)要求并不那么高;
  2. 技術(shù)向:需要懂?dāng)?shù)據(jù)挖掘、算法等,對技術(shù)的要求較高。

從自己的定位來看,并不打算做數(shù)據(jù)挖掘,因為自己的知識結(jié)構(gòu)和時間上的投入產(chǎn)出比可能并不太高。主要希望通過數(shù)據(jù)分析技能,增強自己作為產(chǎn)品運營的競爭力。

2. 做好持久戰(zhàn)準備

于我一個沒有任何基礎(chǔ)的純小白而言,并不是能速成的,需要做好持續(xù)學(xué)習(xí)的準備。

三、做好數(shù)據(jù)分析需要具備哪些技能

  • 統(tǒng)計學(xué)基礎(chǔ)知識
  • Excel的熟練使用
  • SQL
  • Python
  • 分析方法和思維
  • 對業(yè)務(wù)的充分理解

從自身來看,主要需要彌補的為:SQL+Excel+統(tǒng)計+Python。主要以看書為主,視頻為輔,不需要報任何的培訓(xùn)班。

1. SQL

SQL大概是互聯(lián)網(wǎng)公司做數(shù)據(jù)分析用到的最多、最重要的工具了。在整個數(shù)據(jù)分析過程中,用SQL提取數(shù)據(jù),可能要占到整個數(shù)據(jù)分析過程的50%-80%,以至于很多數(shù)據(jù)分析師都被戲稱為“SQL Boy/Girl”。

MySQL數(shù)據(jù)庫的功能可以用四個字概括:增刪改查。

但是對于我們來說,我們能用到的只會有數(shù)據(jù)庫查詢功能,其它權(quán)限是不可能開放給你的。

如果數(shù)據(jù)庫你覺得生澀的話,可以這么理解:

  • SQL? 就是一條存取數(shù)據(jù)的命令;
  • 數(shù)據(jù)庫? 就相當(dāng)于一個文件夾;
  • 數(shù)據(jù)表? 就相當(dāng)于文件夾內(nèi)的一個Excel文件。

表名就是文件名;表中的每一列有一個名字,就是列名,也可以成為字段。

SQL的學(xué)習(xí)可以分為三塊:

  1. 簡單查詢
  2. 關(guān)聯(lián)查詢
  3. 函數(shù)引用

什么是查詢呢?

在數(shù)據(jù)庫建立之后,通過sql命令里最常用的語句SELECT,讓我們查看數(shù)據(jù)庫里保存的數(shù)據(jù),并可以進行一定的分析和歸納。

(1)簡單查詢

SELECT語句的完整格式包含6個子句:

  1. FROM 子句:查詢數(shù)據(jù)的表,指定數(shù)據(jù)的來源;
  2. WHERE 子句:查詢數(shù)據(jù)的過濾條件;
  3. GROUP BY 子句:對匹配 WHERE 子句的查詢結(jié)果進行分組;
  4. HAVING 子句:對分組后的結(jié)果進行條件限制;
  5. ORDER BY 子句:對查詢結(jié)果進行排序,后面跟 DESC 降序或 ASC 升序(默認);
  6. LIMIT 子句:對查詢的顯示結(jié)果限制行數(shù)。

(2)關(guān)聯(lián)查詢

如果要進行多表查詢,就需要用到連接。

連接查詢是把兩個或多個表連接在一起來獲取數(shù)據(jù),是關(guān)系型數(shù)據(jù)庫中最主要的查詢。表的連接方式主要包括內(nèi)連接、外連接和交叉連接等。

  1. from 指定查詢表名、并給出別名;
  2. left join 左外連接,左表全部記錄及右表匹配記錄出現(xiàn)在查詢結(jié)果中;
  3. inner join 內(nèi)連接,左表和右表共同的記錄出現(xiàn)在查詢結(jié)果中;
  4. right join 右外連接,右表全部記錄及左表匹配記錄出現(xiàn)在查詢結(jié)果中;
  5. on 指定關(guān)聯(lián)條件。

表連接后的結(jié)果可以通過這個圖清晰地展示出來:

(3)函數(shù)引用

利用函數(shù)可以提高sql的效率,經(jīng)常用到的函數(shù)主要有:

  • 邏輯運算:and、or、not;
  • 數(shù)值運算:round、floor、ceil、rand、exp、sqrt等;
  • 日期函數(shù):from_unixtime、unix_timestamp、year、month、day、hour、minute、second、weekofyear、detediff、date_add、date_sub等;
  • 條件函數(shù):if、coalesce、case when等;
  • 字符串函數(shù):concat、substr、trim、reverse、split等;
  • 集合統(tǒng)計函數(shù):count、sum、max、min、percentile等。

推薦書目:

推薦下我們部門每個運營同學(xué)人手一本的必備書目:《SQL必知必會》

經(jīng)典習(xí)題:https://blog.csdn.net/flycat296/article/details/63681089

Hive:

隨著數(shù)據(jù)量的不斷增加,很多時候mysql已經(jīng)滿足不了數(shù)據(jù)需要,很多公司開始使用hive或者presto。其實有了SQL的基礎(chǔ),HIVE學(xué)習(xí)還是比較簡單的。

推薦書目:《HIVE編程指南》。

重點看下HQL的數(shù)據(jù)操作、查詢、調(diào)優(yōu)部分,與mySQL大同小異,只是一些語法需要單獨注意下即可。

2. Excel

Excel大家多少都會一些,它的功能很強大,但是絕大多數(shù)人,可能使用了它的1%功能都不到。

Excel 可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策等。

作為常用的數(shù)據(jù)處理和展現(xiàn)工具,我們除了要熟練使用Excel 的函數(shù)和數(shù)據(jù)透視表等操作工具外,更重要的是,利用好Excel 的可視化,用圖表將結(jié)論展現(xiàn)出來,這樣分析和可視化能力會得到迅速提高。

SQL+Excel可以說是數(shù)據(jù)分析的必備神器。

推薦書目:《誰說菜鳥不會數(shù)據(jù)分析》。

這本書不只是介紹Excel的功能,更重要的是介紹一些實踐場景中數(shù)據(jù)分析的步驟和思路,對于初學(xué)者有很大的指導(dǎo)意義。

3. 統(tǒng)計學(xué)

統(tǒng)計學(xué)是數(shù)據(jù)分析的理論基礎(chǔ),可以使數(shù)據(jù)分析更加系統(tǒng)化。

沒有統(tǒng)計學(xué)基礎(chǔ)的數(shù)據(jù)分析師的職業(yè)發(fā)展之路不會長遠,因為在工作中可能會常常遇到不知道該用什么方法找尋數(shù)據(jù)規(guī)律的瓶頸,因此掌握數(shù)據(jù)分析的統(tǒng)計學(xué)基礎(chǔ)知識是成為一名優(yōu)秀數(shù)據(jù)分析師的基礎(chǔ)。

主要需要掌握:

  • 用于集中趨勢分析的平均數(shù)、中數(shù)、眾數(shù);
  • 用于離中趨勢分析的全距、 四分差、平均差、方差、標準差;
  • 研究現(xiàn)象之間是否存在某種依存關(guān)系的相關(guān)分析;
  • 確定兩種或 兩種以上變數(shù)間相互依賴的定量關(guān)系的回歸分析;
  • 揭示同一個變量的各個類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系的關(guān)聯(lián)分析、R-Q 型因子分析;
  • 研究從變量群中提取共性因子 的因子分析;
  • 用于兩個及以上樣本均數(shù)差別的顯著性檢驗的方差分析;
  • 概率及分布、參數(shù)估計、 假設(shè)檢驗等等經(jīng)典統(tǒng)計學(xué)內(nèi)容。

很多人都推薦《商務(wù)與經(jīng)濟統(tǒng)計》,說實話,這本書對小白并不友好。

我的進階路徑是:《赤裸裸的統(tǒng)計學(xué)》→《深入淺出統(tǒng)計學(xué)》→《商務(wù)與經(jīng)濟統(tǒng)計》

前面兩本書更加有趣味性,對于小白,更容易理解,不至于讓你很快從學(xué)習(xí)到放棄。

3. Python

說實話,互聯(lián)網(wǎng)行業(yè)日常的數(shù)據(jù)分析中用到python的機會并不多,SQL+Excel可以說能解決95%的工作需要。另外5%主要是在數(shù)據(jù)量較大,SQL已經(jīng)無法滿足工作需要時,那么Python大法就該出場了。

我們分析一般都是有了現(xiàn)成的公司數(shù)據(jù),很少有從外部獲取的,所以爬蟲,可以暫時先不學(xué),有需要的話,先找爬蟲插件搞定即可。

主要學(xué)習(xí)python基礎(chǔ)和數(shù)據(jù)分析的幾個包。

作為一個沒有編程、數(shù)學(xué)、統(tǒng)計基礎(chǔ)的小白,我是從《父與子的編程之旅》開始看的,這本書對我這種完全負基礎(chǔ)的人,真是極度友好??梢哉f,看了很多推薦的書和視頻,最開始學(xué)習(xí)的時候,只有這一本書是我可以看懂,而且看得下去的。

這本書看完后,又對照《笨方法學(xué)python》做了些題目,然后可以進入python數(shù)據(jù)分析的學(xué)習(xí),主要是《利用python進行數(shù)據(jù)分析》,主要掌握numpy、pandas、Matplotlib庫等。

附上我很早之前的一個非常簡單的練習(xí):https://zhuanlan.zhihu.com/p/33390208。

四、總結(jié)

最后總結(jié)下來,整個時間段,基本可以分為:

  • SQL:學(xué)習(xí)1個月,專門練習(xí)1個月,另加工作中持續(xù)練習(xí);
  • Excel:學(xué)習(xí)2周,專門練習(xí)1周;
  • 統(tǒng)計學(xué):學(xué)習(xí)2個月;
  • Python:學(xué)習(xí)6個月,一直在練習(xí)。

數(shù)據(jù)分析是產(chǎn)品經(jīng)理和產(chǎn)品運營都必須具備的能力之一,隨著科技的發(fā)展,不懂技術(shù)的運營和產(chǎn)品終將要被淘汰。

現(xiàn)在稀缺的技能,在未來,一定會成為必備的一項基礎(chǔ)素質(zhì)。

我們應(yīng)該面向未來去學(xué)習(xí)。

一起加油~~

 

本文由@從南 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不懂技術(shù)的運營和產(chǎn)品終將要被淘汰,贊同

    來自湖南 回復(fù)
  2. 條理很清晰,觀點很明確,深入淺出,看得出來是一個非常實干而且積極的寶寶

    來自北京 回復(fù)
  3. 不錯不錯??

    回復(fù)
  4. 花里胡哨

    回復(fù)