為什么數(shù)據(jù)分析師需要懂算法?

0 評(píng)論 6042 瀏覽 28 收藏 25 分鐘

編輯導(dǎo)語(yǔ):數(shù)據(jù)分析師,乍一聽(tīng)好像只需要與數(shù)據(jù)打交道,收集分析數(shù)據(jù)并且做出相應(yīng)地決策判斷。但是,真的是這樣子的嗎?數(shù)據(jù)分析師其實(shí)也需要學(xué)習(xí)算法知識(shí),并且在實(shí)際的工作中去做大量的驗(yàn)證。在本篇文章中,作者就帶我們?nèi)ソ鈹?shù)據(jù)分析師與算法的前世今生。

通過(guò)和一些朋友交流,發(fā)現(xiàn)目前一些數(shù)據(jù)分析師,其實(shí)不是很清楚機(jī)器學(xué)習(xí)可以如何應(yīng)用于業(yè)務(wù),也不清楚自己到底要不要去學(xué)習(xí)算法知識(shí)。實(shí)際業(yè)務(wù)中一些復(fù)雜算法場(chǎng)景例如商品推薦、內(nèi)容推薦、匹配策略等,其實(shí)都需要數(shù)據(jù)分析師做大量的探索驗(yàn)證工作。

分析師前期可以為建模指導(dǎo)方向,中后期也為模型的優(yōu)化提供一些新的思路與數(shù)據(jù)洞察,此外用算法還可以大大提升分析效率與分析科學(xué)性。今天,就讓我們?cè)敿?xì)的來(lái)了解一下數(shù)據(jù)分析師與算法的前世今生。

本篇目錄:

  1. 對(duì)算法的一些理解
  2. 哪些場(chǎng)景下需要用到機(jī)器學(xué)習(xí)算法
  3. 算法的產(chǎn)出物及形態(tài),如何應(yīng)用于業(yè)務(wù)
  4. 為什么數(shù)據(jù)分析師需要會(huì)機(jī)器學(xué)習(xí)
  5. 數(shù)據(jù)分析師與算法工程師的職責(zé)差異
  6. 實(shí)際業(yè)務(wù)中如何分工配合可以效用最大化
  7. 數(shù)據(jù)分析師應(yīng)該掌握的程度

一、對(duì)算法的一些理解

在講分析師與算法之前,先來(lái)理解一下什么是算法(Algorithm),專業(yè)術(shù)語(yǔ)在很多書(shū)籍、文章里面都有分別的定義,通俗一點(diǎn)理解,大致上可以認(rèn)為算法是為了解決某個(gè)問(wèn)題的固定化計(jì)算方法與步驟。

拆解一下上面這句話:

  • 目的:為了解決某個(gè)/某類問(wèn)題,需要在這之前了解到背后的業(yè)務(wù)背景、關(guān)聯(lián)場(chǎng)景;
  • 方法:通過(guò)計(jì)算來(lái)實(shí)現(xiàn),也就意味著需要具備具體的、可量化的信息輸入,且可計(jì)算,而非不可執(zhí)行的概念體;
  • 步驟:有先后順序,先做什么然后做什么最后做什么,每個(gè)過(guò)程之間還必須具備可行性,執(zhí)行次數(shù)也一定是有限的;
  • 結(jié)論:是否能夠解決這個(gè)問(wèn)題,效果如何,最終必須得有一個(gè)產(chǎn)出物。在算法之外,還有幾層擴(kuò)展;
  • 決策:根據(jù)一個(gè)或者多個(gè)結(jié)論進(jìn)行判斷,這個(gè)過(guò)程是不是符合預(yù)期的,如何調(diào)整優(yōu)化,是否可直接應(yīng)用于業(yè)務(wù);
  • 應(yīng)用拓展:除了解決最初的那個(gè)問(wèn)題外,還有哪些同質(zhì)類型的問(wèn)題也可以得到解決,也就是場(chǎng)景的拓展。

具體的算法搭建過(guò)程就不說(shuō)了,在不少工具書(shū)、專業(yè)書(shū)、案例書(shū)里面都有非常詳細(xì)的講解?;氐絾?wèn)題上,什么場(chǎng)景下需要用到算法去解決問(wèn)題。舉幾個(gè)生活里面的例子:

  • 譬如說(shuō)做菜:為了能吃的更好點(diǎn),選擇一本合適的食譜來(lái)準(zhǔn)備食材、輔料,根據(jù)步驟和技巧“小火燉、中火炸、大火炒”,“一炒、二燉、三燜、四涮”,起鍋裝盤;
  • 譬如上學(xué):從家門出發(fā),直走50米,第一個(gè)十字路口右轉(zhuǎn),繼續(xù)直行100米,到達(dá)公交站,乘402路車,5站后下車,沿人行道繼續(xù)行走200米,左轉(zhuǎn),再直行150米,最終到達(dá)校門。

這些都可以理解為算法,生活里面比比皆是,不過(guò)多數(shù)情況下成為了我們習(xí)慣的一種方式罷了。

二、哪些場(chǎng)景下需要用到機(jī)器學(xué)習(xí)算法

在很多場(chǎng)景下都需要用到機(jī)器學(xué)習(xí)算法,換一個(gè)角度,來(lái)說(shuō)說(shuō)我對(duì)應(yīng)用場(chǎng)景的理解。本質(zhì)上說(shuō),我過(guò)去的一些項(xiàng)目里面通過(guò)算法解決的問(wèn)題大致上可以分為這么幾類

1. 供需匹配的問(wèn)題

量變產(chǎn)生質(zhì)變,過(guò)去的十年時(shí)間,無(wú)論是在B2C,還是B2B、S2B、B2G,我們?nèi)ソ⒂脩舢?huà)像做精準(zhǔn)營(yíng)銷、做好推薦系統(tǒng)實(shí)現(xiàn)千人千面、對(duì)用戶進(jìn)行分層分類打標(biāo)簽、給用戶的評(píng)價(jià)信息劃分情緒好壞等等,都是為了更好的去做供需關(guān)系管理匹配。

視頻個(gè)性化推薦是供需管理,商品個(gè)性化推薦是供需管理,網(wǎng)約車是供需管理,供需管理即“?誰(shuí)可以找誰(shuí)消費(fèi)到一件相對(duì)比較合適的東西(內(nèi)容、物品、信息、線索、商機(jī)),在這個(gè)過(guò)程中還可能需要通過(guò)哪幾個(gè)誰(shuí)才能打通彼此之間的聯(lián)系?!?/p>

衍生出的問(wèn)題立馬就出現(xiàn)了,如何從千萬(wàn)級(jí)甚至億級(jí)的商品里面去做匹配召回,如何從萬(wàn)億級(jí)的會(huì)話內(nèi)容信息中定位線索,如何明確哪些人才是我們目標(biāo)的特定人群,如何把相應(yīng)的信息通過(guò)什么渠道push到最合適的人,如何去做到好的觸達(dá),又如何去回收這些人收到信息之后的反饋效果。

如果只有幾千條數(shù)據(jù),一個(gè)團(tuán)隊(duì)里面10來(lái)個(gè)人,每個(gè)人分個(gè)百來(lái)?xiàng)l逐一去確認(rèn),則不需通過(guò)分析也能實(shí)現(xiàn),耗費(fèi)的只不過(guò)是人力上的一些時(shí)間投入。

所以日常對(duì)接需求過(guò)程中,接到一個(gè)需求時(shí),一般會(huì)先進(jìn)行資源匹配評(píng)估,這個(gè)事情能不能通過(guò)疊人力的方式解決,如果通過(guò)線下大概需要花多少人力成本,用一些小樣本數(shù)據(jù)的歸納總結(jié)能不能得出通用的規(guī)則。做調(diào)研然后去推行的成本有多少,產(chǎn)出有多少。

再之后才是通過(guò)算法方案去解決,投入的工程師要幾人月,設(shè)備資源性能上的要求,能夠持續(xù)多久,可以影響的層面,以及最后的產(chǎn)出估測(cè)。最后再綜合考慮,這個(gè)投入產(chǎn)出比的情況下,到底是通過(guò)小數(shù)據(jù)分析去形成規(guī)則,還是需要通過(guò)算法去挖掘特征,以及方案的可持續(xù)性。

大公司里面資源較豐富,往往這兩者會(huì)并行。從某種程度也就嚴(yán)格的區(qū)分了數(shù)據(jù)分析和數(shù)據(jù)算法間的職責(zé)邊界;而中小企業(yè)資源有限,可能造成分析即算法的現(xiàn)象。

我們發(fā)現(xiàn),供需匹配過(guò)程中涉及的算法,基本都是有監(jiān)督算法,不論是人群分類、商品召回、需求匹配,都可以通過(guò)過(guò)去的經(jīng)驗(yàn)進(jìn)行一個(gè)初步標(biāo)簽建立,然后逐步去對(duì)劃分的準(zhǔn)確性進(jìn)行校驗(yàn)和優(yōu)化。

值得一談的是,在供需的某些場(chǎng)景過(guò)程中會(huì)并存很多涉及物聯(lián)網(wǎng)的知識(shí),譬如物流調(diào)度、配送匹配、路線優(yōu)化、倉(cāng)庫(kù)建設(shè)等等供應(yīng)鏈優(yōu)化方面的事情,這些場(chǎng)景下除了算法外,還需要去了解下運(yùn)籌學(xué)的內(nèi)容。

2. 異常識(shí)別和診斷

異常檢測(cè),在前幾年p2p還沒(méi)有暴雷的時(shí)候,金融領(lǐng)域里面遍地都是,主要的場(chǎng)景就是風(fēng)控,風(fēng)控的場(chǎng)景細(xì)分:

  • 信用卡交易反欺詐:分類任務(wù),GBDT算法 / XGBT算法+LR邏輯回歸;
  • 信用卡申請(qǐng)反欺詐:分類任務(wù),GBDT算法 / XGBT算法+LR邏輯回歸;
  • 貸款申請(qǐng)反欺詐:分類任務(wù),GBDT算法 / XGBT算法+LR邏輯回歸;
  • 反洗錢:分類任務(wù),GBDT算法 / XGBT算法+LR邏輯回歸。

金融領(lǐng)域涉及到風(fēng)控的幾乎都是GBDT / XGBT+LR,因?yàn)樵诮鹑谛袠I(yè)有一個(gè)非常特別的屬性:監(jiān)管。

對(duì)于算法結(jié)果必須有非常好的模型解釋,對(duì)于LR模型來(lái)說(shuō),這是天然的優(yōu)勢(shì),特征可解釋,特征工程清晰,每個(gè)特征的貢獻(xiàn)度、相關(guān)程度也可以被統(tǒng)計(jì)出來(lái)。

換了其他深度學(xué)習(xí)的模型,從最終的模型效果上來(lái)看,roc/auc/ks的表現(xiàn)沒(méi)差,但是解釋性極差,也就造成了很多應(yīng)用上的壁壘。換一個(gè)通俗點(diǎn)說(shuō)法,你很高級(jí),然而并不實(shí)用,華而不實(shí)。

3. 排序

排序之所以單拎出來(lái),它的應(yīng)用場(chǎng)景其實(shí)有一定的局限性,但是怎么做好排序,客觀、合理,卻是一個(gè)值得去考究的事情。常見(jiàn)的排序應(yīng)用場(chǎng)景有熱點(diǎn)榜單、搜索排序、推薦排序等。

知乎的問(wèn)題回答排序是一個(gè)經(jīng)典的排序應(yīng)用場(chǎng)景,既要保證優(yōu)質(zhì)高贊內(nèi)容可以排在前面被用戶瀏覽,又要保證新增內(nèi)容有一定曝光量,同時(shí)需要綜合考慮話題熱度及社區(qū)調(diào)性等多重因素。

故需要將回答贊/踩數(shù)量、回答用戶該領(lǐng)域權(quán)威性、贊/踩用戶領(lǐng)域權(quán)威性、回答時(shí)間、回答爭(zhēng)議性、回答用戶的歷史畫(huà)像特征等綜合權(quán)重進(jìn)行算法排序。

4.? 預(yù)測(cè)

數(shù)值預(yù)測(cè)與分類預(yù)測(cè)都屬于預(yù)測(cè)場(chǎng)景。銷售預(yù)測(cè)、股票預(yù)測(cè)、流量預(yù)測(cè),這些都是常見(jiàn)的預(yù)測(cè)場(chǎng)景。11、12年的時(shí)候清一色的都會(huì)用arima,spss在手天下我有,沒(méi)有什么是時(shí)序不能解決的,到后面就變成xgboost、LightGBM了。

5. 知識(shí)圖譜

2012年的時(shí)候google推出了一個(gè)叫Knowledge Graph的產(chǎn)品,能夠直觀的看到詞和其背后知識(shí)的關(guān)系。

很多大公司都已經(jīng)在知識(shí)圖譜的建設(shè)上進(jìn)行布局了,知識(shí)圖譜最早的應(yīng)用是提升搜索引擎的能力,隨后在輔助智能問(wèn)答、自然語(yǔ)言理解、大數(shù)據(jù)分析、推薦計(jì)算、物聯(lián)網(wǎng)設(shè)備互聯(lián)、可解釋性人工智能等多個(gè)方面展現(xiàn)出豐富的應(yīng)用價(jià)值,這幾年推廣比較成功的應(yīng)該是AI輔助司法進(jìn)行案件判決。

  • 信息檢索/搜索:搜索引擎中對(duì)實(shí)體信息的精準(zhǔn)聚合和匹配、對(duì)關(guān)鍵詞的理解以及對(duì)搜索意圖的語(yǔ)義分析等;
  • 自然語(yǔ)言理解:知識(shí)圖譜中的知識(shí)作為理解自然語(yǔ)言中實(shí)體和關(guān)系的背景信息;
  • 問(wèn)答系統(tǒng):匹配問(wèn)答模式和知識(shí)圖譜中知識(shí)子圖之間的映射;
  • 推薦系統(tǒng):將知識(shí)圖譜作為一種輔助信息集成到推薦系統(tǒng)中以提供更加精準(zhǔn)的推薦選項(xiàng),知識(shí)圖譜+推薦系統(tǒng);
  • 電子商務(wù):構(gòu)建商品的知識(shí)圖譜用于精準(zhǔn)匹配用戶的購(gòu)買意愿和商品候選集,知識(shí)圖譜+推薦系統(tǒng);
  • 金融風(fēng)控:利用實(shí)體之間的關(guān)系分析金融活動(dòng)的風(fēng)險(xiǎn)以提供在風(fēng)險(xiǎn)觸發(fā)后的補(bǔ)救措施(如反欺詐等);
  • 公安刑偵:分析實(shí)體和實(shí)體之間的關(guān)系獲取案件線索等;
  • 司法輔助:法律條文的結(jié)構(gòu)化表示和查詢用于輔助案件的判決等;
  • 教育醫(yī)療:提供可視化的知識(shí)表示,用于藥物分析、疾病診斷等;
  • 社交類業(yè)務(wù):社交類業(yè)務(wù)具備高度連接的特點(diǎn),比如好友關(guān)系等,<用戶1,關(guān)注,用戶2>。

三、算法的產(chǎn)出物及形態(tài),如何應(yīng)用于業(yè)務(wù)

我們最近常聽(tīng)到的一個(gè)詞叫“大數(shù)據(jù)殺熟”,應(yīng)該是算法在業(yè)務(wù)上非常常用的一種應(yīng)用場(chǎng)景。通常來(lái)說(shuō),算法的產(chǎn)出物有兩種,第一種是算法產(chǎn)出的結(jié)果(分群、分類、預(yù)測(cè)值),第二種是算法產(chǎn)出的規(guī)則。

1. 產(chǎn)出結(jié)果

  • 降維:無(wú)論是對(duì)數(shù)據(jù)的分類,還是對(duì)數(shù)值的預(yù)測(cè),對(duì)業(yè)務(wù)應(yīng)用都可以作為篩選對(duì)象,進(jìn)一步縮小目標(biāo),找到清晰的劃分邊界。在一些臨界點(diǎn)上算法會(huì)減少人力決策成本,從諸多策略中選擇最優(yōu)去做嘗試;
  • 精細(xì)化:把結(jié)果作為標(biāo)簽,結(jié)合CRM、廣告系統(tǒng)、營(yíng)銷系統(tǒng),幫助業(yè)務(wù)更便捷、更精準(zhǔn)地獲取信息,強(qiáng)化用戶感知,制造新奇感引起用戶注意,設(shè)置規(guī)則以提升用戶使用黏性;
  • 策略:降低成本、提效增益,算法本質(zhì)上解決的就是這兩件事情,算法產(chǎn)出結(jié)果可以有效的支撐策略制定,論證是或否的可行性。

2. 產(chǎn)出規(guī)則

很多時(shí)候我們往往只會(huì)關(guān)注到了結(jié)果本身,準(zhǔn)確性、精確率、召回率怎么樣,卻忽略了算法產(chǎn)生的規(guī)則層應(yīng)用。前面提到過(guò)的模型可解釋性,其實(shí)就是一種規(guī)則的具象化。

在關(guān)聯(lián)分析中,有提到過(guò)強(qiáng)相關(guān)、弱相關(guān)、不相關(guān)。作為一名業(yè)務(wù),他可以說(shuō)這個(gè)產(chǎn)出結(jié)果通過(guò)業(yè)務(wù)經(jīng)驗(yàn)也能知道,而作為分析,則需要把所謂“經(jīng)驗(yàn)”演繹為規(guī)則,這個(gè)規(guī)則就是通過(guò)數(shù)字串聯(lián)起來(lái)的。

于算法而言,在模型解釋時(shí),也會(huì)碰到一些特征具備很強(qiáng)的規(guī)則,但往往容易只看數(shù)據(jù)結(jié)果,卻忽略了其在實(shí)際業(yè)務(wù)過(guò)程中的意義和因果關(guān)系,于是造成了“算法分析出的結(jié)果不如根據(jù)經(jīng)驗(yàn)拍腦袋決策”的現(xiàn)象。

四、為什么數(shù)據(jù)分析師需要會(huì)機(jī)器學(xué)習(xí)

我們先明確一個(gè)概念,即數(shù)據(jù)分析,它既可以作為一個(gè)社會(huì)中職業(yè)人的附加技能存在,也可以作為一個(gè)社會(huì)中職業(yè)人的主干職業(yè)進(jìn)行發(fā)展。

1. 多數(shù)情況下,我們僅在迎合這個(gè)世界的法則,卻并未去思考它為什么存在

在挖掘分析應(yīng)用的項(xiàng)目中,算法是核心要素,大部分算法的實(shí)現(xiàn)原理,都會(huì)涉及一些高等數(shù)學(xué)知識(shí)。

數(shù)學(xué)本身非常抽象,學(xué)的快忘的快,自然而然算法對(duì)很多人來(lái)說(shuō)具備某種神秘感。人類的好奇心和上進(jìn)心,促進(jìn)了人類的進(jìn)化與生存,所以我要揭開(kāi)那層神秘面紗去學(xué)習(xí)。

同樣人也會(huì)經(jīng)常高估自己的毅力及短期內(nèi)可取得成果,所以往往是:費(fèi)勁周折投入大量時(shí)間搞明白幾個(gè)算法原理實(shí)現(xiàn)后,就再也沒(méi)有繼續(xù)堅(jiān)持下去。此時(shí)可能走向一個(gè)極端,只要能使用第三方的算法庫(kù)在自己的電腦中成功運(yùn)行并能輸出結(jié)果就可以,效果不好就再換一個(gè)算法嘗試。

2. 數(shù)據(jù)分析為了達(dá)成業(yè)務(wù)目標(biāo),可以使用算法來(lái)進(jìn)行快速論證

分析師懂算法非常有必要,最近幾年,數(shù)據(jù)分析師的崗位職責(zé)中,或多或少會(huì)寫(xiě)一些算法相關(guān)要求。

我的認(rèn)知是,初級(jí)分析師不需要懂算法即可cover大部分的工作內(nèi)容。但是要想職業(yè)更上一層樓,增強(qiáng)分析的科學(xué)性嚴(yán)謹(jǐn)性和效率性,尤其是涉及算法策略驅(qū)動(dòng)的業(yè)務(wù)類型中,分析師必須懂一些常用機(jī)器學(xué)習(xí)算法。

其實(shí)分析的重點(diǎn)還是聚焦在對(duì)目標(biāo)問(wèn)題的拆解、論證與實(shí)現(xiàn)上,對(duì)于絕大多數(shù)分析師而言,業(yè)務(wù)需求特征大致可歸納為,交付時(shí)間短、實(shí)現(xiàn)成效快、數(shù)據(jù)維度豐富、結(jié)論支撐足夠、方便報(bào)告匯報(bào)。

大部分業(yè)務(wù)分析的場(chǎng)景都可以通過(guò)類似杜邦分析的方法進(jìn)行層層下鉆拆解,而這個(gè)過(guò)程對(duì)數(shù)學(xué)知識(shí)以及算法知識(shí)的涉及可能非常少。

業(yè)界已經(jīng)有了非常多成熟的算法應(yīng)用實(shí)踐,有的時(shí)候?yàn)榱俗鰯?shù)據(jù)論證和探索,就需要用到類似算法,其目的是用最短的時(shí)間找到一個(gè)可以去下結(jié)論的突破點(diǎn)。于是在實(shí)際應(yīng)用時(shí)會(huì)碰到一個(gè)前提,即每種算法都有其合適的應(yīng)用場(chǎng)景及前置條件,且當(dāng)具體使用時(shí)超級(jí)參數(shù)的影響也非常大。

所以如果我們不從更高層次去理解和對(duì)待算法,那么在實(shí)際運(yùn)用時(shí),就可能如刻舟求劍,難以取得預(yù)想效果或者過(guò)早的否掉一個(gè)本可以恰當(dāng)解決當(dāng)前問(wèn)題的算法模型,只因?yàn)橄嚓P(guān)的工作沒(méi)有足夠的重視(例如數(shù)據(jù)清洗、特征選取方式不合理)。

skl包提供了大量簡(jiǎn)單函數(shù),為了快速運(yùn)用這些函數(shù)解決實(shí)際問(wèn)題,我們不得不花時(shí)間去了解算法的內(nèi)部原理及實(shí)現(xiàn)細(xì)節(jié)。建筑設(shè)計(jì)師不需要精通制造鋼筋水泥的工藝,但需要了解不同鋼鐵、水泥的性質(zhì)用途及之間配合關(guān)系,道理同樣適用在這個(gè)環(huán)節(jié)。

3. 分析師要更好成長(zhǎng),橫向知識(shí)儲(chǔ)備必不可少

數(shù)據(jù)分析師的成長(zhǎng)就像一場(chǎng)馬拉松,需要合理分配時(shí)間精力。專注力和自制力是一種稀缺資源,需要用在最合適的地方。經(jīng)常提醒自己的目標(biāo)是什么,才能把事情做好,對(duì)于分析師來(lái)說(shuō)尤其如此。

不僅僅是算法,在這個(gè)大的社會(huì)環(huán)境下,對(duì)于市場(chǎng)、行業(yè)、細(xì)分領(lǐng)域、垂直領(lǐng)域、崗位、職業(yè)、技術(shù)、技能、商業(yè)很多個(gè)方面都需要有所涉獵,因?yàn)榉治鲋皇且粋€(gè)技能,把它作為職業(yè)更需要貼切實(shí)際場(chǎng)景下做出相應(yīng)合理的策略。

五、數(shù)據(jù)分析師與算法工程師的職責(zé)差異

1. 數(shù)據(jù)分析師的要求

  • 懂業(yè)務(wù)是前提:視野需要盡可能寬,需要去了解行業(yè)大盤、市場(chǎng)動(dòng)態(tài)、公司業(yè)務(wù)、商業(yè)模式、業(yè)務(wù)流程,建立自己的認(rèn)知和判別思維,在指定場(chǎng)景下能夠去用科學(xué)嚴(yán)謹(jǐn)?shù)姆椒ǖ贸龊侠斫Y(jié)論;
  • 懂分析是核心:數(shù)據(jù)分析的基本方法原理、專業(yè)高效的數(shù)據(jù)分析方法論、靈活性的組合技巧運(yùn)用、結(jié)合業(yè)務(wù)的適用分析方法論、高度的數(shù)據(jù)敏感性;
  • 懂匯報(bào)是臺(tái)階:好的分析離不開(kāi)好的報(bào)告,好的報(bào)告離不開(kāi)好的匯報(bào)技巧,在誰(shuí)的面前怎么說(shuō)話,說(shuō)什么話,也是一項(xiàng)技術(shù)活兒。

2. 算法工程師的要求

  • 懂技術(shù)是前提:不同的算法可能用不同的時(shí)間、空間或效率來(lái)完成同樣的任務(wù),算法的運(yùn)行效能需要具備一定的coding技術(shù)支撐。
  • 專業(yè)極其細(xì)分:按照研究方向劃分,主要是視頻算法工程師、圖像處理算法工程師、音頻算法工程師、通信基帶算法工程師、信號(hào)算法工程師、NLP算法工程師、生物醫(yī)學(xué)信號(hào)算法工程師等知識(shí)深度寬泛。

3. 兩者的共性和差異

  • 共性:都需要對(duì)數(shù)據(jù)進(jìn)行探索,發(fā)覺(jué)數(shù)據(jù)之間的模式和規(guī)律,從而運(yùn)用一些列的規(guī)則和公式來(lái)解決實(shí)際的問(wèn)題(都要讀統(tǒng)計(jì)學(xué)、概率論);
  • 區(qū)別:數(shù)據(jù)分析通過(guò)一些傳統(tǒng)的方法來(lái)解決實(shí)際問(wèn)題,門檻低,人人都是數(shù)據(jù)分析,實(shí)現(xiàn)效果即可忽略性能;算法工程師的門檻相對(duì)較高,需要對(duì)原有的方法進(jìn)行一定程度的創(chuàng)新,來(lái)解決特定領(lǐng)域中的問(wèn)題,且需要保證算法的性能、效果、穩(wěn)定。

六、實(shí)際業(yè)務(wù)中如何分工配合可以效用最大化

實(shí)際業(yè)務(wù)過(guò)程中,分析和算法的需求方是存在一定差異的。在協(xié)同上,往往有可能不同部門的人,在做同一件事??赡軙?huì)因?yàn)樾枨髮?dǎo)入時(shí)的背景、視角不同,造成結(jié)論之間存在差異性。

1. 一個(gè)案例

有一些人總是不及時(shí)向電信運(yùn)營(yíng)商繳錢,如何發(fā)現(xiàn)它們?

  • 數(shù)據(jù)分析:通過(guò)對(duì)數(shù)據(jù)的觀察,我們發(fā)現(xiàn)不及時(shí)繳錢人群里的貧困人口占82%。所以結(jié)論是收入低的人往往會(huì)繳費(fèi)不及時(shí)。結(jié)論就需要降低資費(fèi);
  • 數(shù)據(jù)算法:通過(guò)編寫(xiě)好的算法自行發(fā)現(xiàn)深層次的原因。原因可能是,家住在五環(huán)以外的人,由于環(huán)境偏遠(yuǎn)不及時(shí)繳錢。結(jié)論就需要多設(shè)立一些營(yíng)業(yè)廳或者自助繳費(fèi)點(diǎn)。

2. 如何協(xié)同

數(shù)據(jù)算法之前,應(yīng)該先進(jìn)行數(shù)據(jù)的探索分析,通過(guò)對(duì)業(yè)務(wù)問(wèn)題的定位和拆解,找到可用的數(shù)據(jù)維度特征,采集數(shù)據(jù),形成數(shù)據(jù)指標(biāo)進(jìn)行各種維度組合的統(tǒng)計(jì)分析,得出初步結(jié)論進(jìn)行匯報(bào),如上:人均收入低建議降低資費(fèi)。

在業(yè)務(wù)信息聚焦過(guò)程中,對(duì)發(fā)現(xiàn)出來(lái)無(wú)法具象描述出來(lái)的課題,組織進(jìn)行專題研究,通過(guò)算法的形式構(gòu)建數(shù)據(jù)特征進(jìn)行深層次挖掘,得出潛在結(jié)論,如上:環(huán)境偏遠(yuǎn)建議增加駐點(diǎn)。

之后針對(duì)算法產(chǎn)出的結(jié)論,可以進(jìn)行可行性分析,基于業(yè)務(wù)上的實(shí)際訴求,分析選址位置、人群覆蓋、套餐標(biāo)準(zhǔn)等等。

3. 小結(jié)

分析和算法在某種程度上來(lái)說(shuō)可以混淆在一起,小團(tuán)隊(duì)里面,1~2個(gè)資深的分析也可以hold 。很多事情都是需要自驅(qū)進(jìn)行,但從實(shí)際項(xiàng)目的推進(jìn)上,通常都是先分析,再專題,繼而深度結(jié)合業(yè)務(wù)分析,再分析驅(qū)動(dòng)算法迭代,如此反復(fù)。

七、數(shù)據(jù)分析師應(yīng)該掌握的程度

綜上,對(duì)于一個(gè)專業(yè)數(shù)據(jù)分析師來(lái)說(shuō),在各個(gè)層面需要掌握的能力要求可以如下:

  • 行業(yè)知識(shí)? ★★★★
  • 業(yè)務(wù)了解 ★★★★★
  • 分析思維 ★★★★★
  • 數(shù)據(jù)處理 ★★★★
  • 算法原理? ★★★
  • coding能力? ★★★
  • 報(bào)告撰寫(xiě)? ★★★★★
  • 匯報(bào)演講? ★★★★
  • 歸納總結(jié)? ★★★★★
  • 資源整合? ★★★★

 

作者:趙小洛,公眾號(hào):趙小洛洛洛

本文由 @趙小洛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!