大數據人才,到底應具備哪些技能?

0 評論 1352 瀏覽 12 收藏 11 分鐘

想成為大數據人才,究竟應該具備哪些技能?這篇文章里,作者從數據分析流程、職業技能等維度做了相應的分享,不妨一起來看看吧。

我是西索,最近這段時間,和幾個大廠的TL 做分析「價值」方面的探討,在大數據時代要怎么才能發揮更高的數據價值,剛好涉及到這部分的討論,把討論結果做個分享,供同行參考。

這幾年聽到最多的一個聲音,我們要開始“卷”價值了。那么“你的價值體現是什么?”、“當前還有多少價值可以做”、“接下來我們要創造什么價值”…

一、認識數據分析流程

對于剛入行的同學來說,需要了解大數據分析過程中涉及到的流程和環節,再結合大數據的要素進行能力拆解。

二、認識大數據,不得不了解的4V特性

數據分析和大數據分析,原始數據量大小不同,導致處理方式的不同。

大數據分析,主要是利用各種類型的全量數據(不是抽樣數據),設計統計方案,得到兼具細致和置信的統計結論。在做大規模數據處理的時候,天然存在很多技術壁壘,必須要用專業的軟件才能解決,還需要兼顧運算時效、計算性能、運行成本、數據加工技巧等等。

1. 認識大數據架構能力

以下是一個比較典型的大數據架構:

了解大數據平臺的底層構成,增加對工具的認知,了解不同產品之間的共性和差異性,在真實建設場景中才能做好針對性的方案設計。

大數據平臺、關系型數據庫vs非結構式數據庫、實時數據vs離線數據、數據調度工具。

2. 認識大數據指標體系

因為大數據的體量很大,為了快速拿到想要的數據結果,就不得不提「數據指標體系」。指標體系的搭建分為兩大步驟:設計指標體系落地指標體系。

3. 認識大數據指標體系

關于大數據工具的介紹,可以參考這篇文章:大數據常用工具集合。

三、做好大數據需要儲備的職業技能

我們把職業技能劃分為顯性和隱性兩個方面,從大數據各種崗位的job model中可以抽象成為集中能力,見下圖:

1. 必知的管理方法論

在職場中我們會接觸到很多「管理」內容,向上管理、向下管理、項目管理、團隊管理、需求管理等,提升自己的管理軟實力,加強管理方法的意識塑造,是拉開職場核心競爭力的關鍵所在。

2. 常用的統計學知識

分析過程可能是做一些探索性數據分析、統計分析、機器學習建模,甚至是做AB測試實驗,最終交付分析報告。數據分析離不開統計學、運籌學,以下羅列了日常過程中經常用到的統計方法。

3. 重要的商分類知識

“無場景不分析”、“脫離業務場景的分析都是耍流氓”等資深數據分析師的建議無不說明業務場景的重要性,數據分析在不同場景下,也有不同的“分析”招式來滿足不同的業務需求,熟悉下面的商業分析模型有助于建立業務信賴。

4. 掌握的算法類模型

有監督模型,對于企業銷售的預測、還是對用戶行為的預測,都能幫助提升業務效率。比如常見的預測用戶流失分析,及時得到高概率流失的人群名單,運營通過提前營銷干預,提高用戶留存率。

無監督模型,可以應對未知模式的分析。譬如,不知道應該把現有人群分成多少個組來進行營銷最合適,就可以對人群基于核心特征做無監督的聚類分析,得出有效分組的界限。

5. 機器學習和深度學習算法

幾個基礎概念:

  • 數據集合:訓練集、測試集、驗證集;
  • 數據檢查:描述性統計(最大、最小、中位數、眾數、四分位)、缺省值填充、卡方分布;
  • 數據校驗:共軛線性、相關系數(Pearson Correlation Coefficient);
  • 特征工程:什么是特征工程、特征工程構建、特征工程權重查看、特征選擇(filter/Wrapper/Embedded)
  • 歸一化:虛擬變量,labelEncoder/OneHotEncoder/get_dummies;此外可以參考核函數構建方法,通過log、ln、e的方式構建,縮小極大值之間的數據離散度;
  • 數據標準化:z-score、max-min scaling;
  • 算法校驗:卡方校驗、5-fold、

機器學習:

知識重點:距離、信息熵、梯度、L1/L2、魯棒性(穩定性)。

L1-曼哈頓(絕對值相加,不唯一解)、L2-歐氏距離(歐幾里得距離之和,平方和,唯一解)。

無監督學習:

聚類(cluster):k-means、cart(核心是距離-歐式/馬氏/曼哈頓/切比雪夫,高斯密度/正態分布)。

半監督學習:

監督學習:

回歸(logistic):線性回歸、LR(ridge/lasso,L1/L2)、預測(Arima、prephet);

分類(classification):KNN、Decsion Tree、XGBoost、Random Forest、GBDT、SVM、Bayes。

深度學習

知識重點:損失函數、核函數。

用途:文字識別、圖片識別、語音識別、視頻處理。

文本挖掘:

NLP:tf-idf、LDA、CBOW、word bag

目標檢測:

神經網絡:BP(CNN)、RNN、LSTM。

6. 數據可視化的能力

圖表是數據可視化的常用表現形式,是對數據的二次加工,可以幫助我們理解數據、洞悉數據背后的真相,讓我們更好地適應這個數據驅動的世界。

四、擅長的·愛好的·世界需要的

在布賴恩·費瑟斯通豪《遠見:如何規劃職業生涯3大階段》一書中提到,你要不斷問自己這三個問題:我擅長什么?我愛好什么?這個世界需要什么?三者交集的部分,找到自己的目標,當前應該做哪些方面的刻意練習,強化優勢,用長板補短板。

工作規劃,是結合公司整體方向而開展的規劃過程;個人規劃,是結合個人職業發展而開展的規劃過程;彼此之間的交集在于,如何通過規劃把兩個方面進行融合!

而個人職業成長旅程中有三個定位:崗位定位,管理定位,行業定位。

  1. 28歲前,用崗位專業定位自己,你干啥最專業?
  2. 32歲之前,用管理角色定位自己,你做項目、帶團隊、搞運營的能力怎么樣?
  3. 38歲之前,用行業品類定位自己,你在哪一個行業領域做到了頂尖?

本文由 @鄭小柒是西索啊 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!