數據產品經理必備技能之工具篇
“工欲善其事,必先利其器”,作為一名數據產品經理,不論是做數據分析,還是搭建數據平臺,你必須要掌握很多工具,這樣才能得心應手。下面,將從簡單的 Excel 說起,到R,再到數據平臺需要的工具和技術,由易到難,幫你在工具上全方位掌握數據產品經理的必備技能。
數據分析利器—Excel
相信每個人都會用一些 Excel的簡單功能,可是,作為一名數據產品經理,僅僅掌握這些功能是不能滿足大數據量分析需求的。首先你要掌握以下一些常用函數:
- 日期函數:day,month,year,date,today,weekday,weeknum
- 數學函數:product,rand,round,sum,sumif,sumproduct
- 統計函數:large,small,max,min,rank,count,countif,average,averageif
- 查找和引用函數:choose,match,index,column,row,vlookup,hlookup,lookup,offset
- 文本函數:find,search,text,value,left,right,mid,len
- 邏輯函數:and,or,if,false,true
掌握了這些函數,就可以對經常分析的業務建立一個數據模板,例如業務大盤日報,這樣就省去了手動計算大量數據的麻煩,根據模板自動更新新增數據,直接顯示結果。
接下來說一下Excel數據分析非常好用的另一個利器—數據透視表,它可以快速的把大量數據生成可以分析和展現的報表,而且可以隨意組織選擇各種維度和值,就像一個魔方,你可以自由組合查看不同角度的不同結果,它把復雜的公式轉化成了簡單的數據分析,非常實用易上手。通過數據透視表,你可以實現以下幾種功能:
- 自動計算分類間的數據匯總,計數,最大值,最小值,平均值等。
- 自動排序、分組以及分組。
- 分析環比、同比、定基比等。
- 根據業務邏輯進行個性化分析。
數據分析及可視化強大語言—R
R是一種為統計計算和繪圖而生的語言和環境,它是一套開源的數據分析解決方案。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能 。
與其說R是一種統計軟件,還不如說R是一種數學計算的環境,因為R并不是僅僅提供若干統計程序、使用者只需指定數據庫和若干參數便可進行一個統計分析。
R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。 R內建多種統計學及數字分析功能。
R其實還是一個蠻專業的一個工具,要想了解更多的R語言知識,可以去官網 http://www.rproject.cn/ 下載安裝程序和資料進行深入學習。
搭建數據平臺必備—Hadoop
Hadoop是一個分布式系統基礎架構,現在被廣泛的應用于大數據平臺的開發中,對處理海量數據,有著其他技術無可匹敵的優勢。
Google File System、Map-Reduce與BigTable被譽為分布式計算的三駕馬車,其中 Google File System用來解決數據存儲的問題,采用N多臺廉價的電腦,使用冗余的方式,來取得讀寫速度與數據安全并存的結果。 Map-Reduce說白了就是函數式編程,把所有的函數都分為兩類,Map和Reduce,Map用來將數據分成多份,分開處理,Reduce將處理的結果進行歸并,得到最終的結果。 BigTable是在分布式系統上存儲結構化數據的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。
下面兩張圖有助于從大致框架和結構上理解Hadoop。
Hadoop體系架構
Hadoop核心設計
除了Hadoop體系架構那些基礎工具外,數據產品經理還需要對以下幾個基礎工具做一些了解。
- ELASTIC SEARCH:基于Lucene的搜索服務器。提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。Elasticsearch作為Apache許可條款下的開放源碼發布,是當前流行的企業級搜索引擎。設計用于云計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。
- Memcached:Memcached 是一個高性能的分布式內存對象緩存系統,用于動態Web應用以減輕數據庫負載。它通過在內存中緩存數據和對象來減少讀取數據庫的次數,從而提高動態、數據庫驅動網站的速度。一般的使用目的是,通過緩存數據庫查詢結果,減少數據庫訪問次數,以提高動態Web應用的速度、提高可擴展。
- Redis:開源的使用ANSI C語言編寫、支持網絡、可基于內存亦可持久化的日志型、Key-Value數據庫,并提供多種語言的API。 為了保證效率,數據都是緩存在內存中,區別的是Redis會周期性的把更新的數據寫入磁盤或者把修改操作寫入追加的記錄文件,并且在此基礎上實現了主從同步。 Redis的出現,很大程度補償了Memcached這類key/value存儲的不足,在部分場合可以對關系數據庫起到很好的補充作用。
- Kafka:Kafka是一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據。 這種動作(網頁瀏覽,搜索和其他用戶的行動)是在現代網絡上的許多社會功能的一個關鍵因素。 這些數據通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop的一樣的日志數據和離線分析系統,但又要求實時處理的限制,這是一個可行的解決方案。
Kafka集群可以在一個指定的時間內保持所有發布上來的消息,不管這些消息有沒有被消費。打個比方,如果這個時間設置為兩天,那么在消息發布的兩天以內,這條消息都是可以被消費的,但是在兩天后,這條消息就會被系統丟棄以釋放空間。Kafka的性能不會受數據量的大小影響,因此保持大量的數據不是一個問題。
- Storm:Storm是分布式數據處理的框架,本身幾乎不提供復雜事件計算。Storm用于實時處理,就好比 Hadoop 用于批處理。Storm保證每個消息都會得到處理,而且它在一個小集群中,每秒可以處理數以百萬計的消息。
Storm 應用領域包括實時分析、在線機器學習、信息流處理(例如,可以使用Storm 處理新的數據和快速更新數據庫)、連續性的計算(例如,使用Storm 連續查詢,然后將結果返回給客戶端,如將微博上的熱門話題轉發給用戶)、分布式RPC(遠過程調用協議,通過網絡從遠程計算機程序上請求服務)、ETL(Extraction Transformation Loading,數據抽取、轉換和加載)等。
相信掌握了上面提到的常用工具后,無論是數據分析,還是大數據平臺的打架,都能夠很快很容易的上手,同時在數據產品經理的成長道路上又邁出一大步。
本文由 @徐鵬 原創發布于人人都是產品經理。未經許可,禁止轉載。
應該備注內容來自《數據產品經理修煉手冊》
我覺得知道這些技術和框架是干嘛的、有啥用、有啥限制就行,無需到會用的程度,你是產品,不是開發,不要本末倒置。
大家期待已久的《數據產品經理實戰訓練營》終于上線啦!
本課程非常適合新手數據產品經理,或者想要轉崗的產品經理、數據分析師、研發、產品運營等人群。
課程會從基礎概念,到核心技能,再通過典型數據分析平臺的實戰,幫助大家構建完整的知識體系,掌握數據產品經理的基本功。
學完后你會掌握怎么建指標體系、指標字典,如何設計數據埋點、保證數據質量,規劃大數據分析平臺等實際工作技能~
現在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優惠吧!
哇,這些工具你都會使用嗎?