從0到1構(gòu)建數(shù)據(jù)生態(tài)系列之一:蠻荒時(shí)代

1 評(píng)論 8546 瀏覽 18 收藏 13 分鐘

對(duì)于中小型企業(yè)來說,開始嘗試以數(shù)據(jù)的思維去思考問題,開始涉足大數(shù)據(jù)領(lǐng)域,這就是一個(gè)從0到1的過程了。

1. 緣起

前面剛好爬取了多個(gè)招聘網(wǎng)站的大數(shù)據(jù)JD信息,做了一份《2016大數(shù)據(jù)領(lǐng)域職位需求畫像報(bào)告》,我們知道,當(dāng)前大數(shù)據(jù)的需求基本屬于遍地開花。

無論是帝都還是魔都,還是廣州深圳,亦或者是全國(guó)其他各地,都在搞大數(shù)據(jù);不管是不到百人的微小公司,還是幾百人上千人的中型公司,亦或者是上萬的大型公司,都在需求數(shù)據(jù)崗位。

大公司暫且不論,他們一切都走在前頭。那么,對(duì)于中小型企業(yè)來說,開始嘗試以數(shù)據(jù)的思維去思考問題,開始涉足大數(shù)據(jù)領(lǐng)域,這就是一個(gè)從0到1的過程了。

有(bu)幸(xing),這近半年來,我親自見證以及親身體會(huì)到了這個(gè)過程(好吧,這就是我半年沒有文字更新的原因了),或者至今仍然在完善1這個(gè)過程中。

期間,有痛苦有坑、有喜悅有成功、有沉靜有反思,這是一件快樂又痛苦,同時(shí)最終又注定很有成就感的事。

所以,我打算寫一個(gè)系列,名字就暫定為《從0到1構(gòu)建大數(shù)據(jù)生態(tài)系列》吧。當(dāng)然,目標(biāo)群體僅僅是中小型企業(yè)中,從0到1開始構(gòu)建數(shù)據(jù)生態(tài)的同行們。

希望,我整理的這些東西,或者說一個(gè)技術(shù)小故事能夠幫助到各位同行朋友們,能夠給你們?cè)谀承╇A段一些有用的建議或者參考。

至于大嬸們,有興趣的就略瞅兩眼,沒興趣的就高抬貴腳,從旁繞過。當(dāng)然,限于個(gè)人的知識(shí)累積以及能力,必然會(huì)存在一些誤差或者觀點(diǎn)錯(cuò)誤,歡迎指正以及交流。

我想盡量以輕松的語(yǔ)句,去呈現(xiàn)這整個(gè)事件,去描述我自己的觀點(diǎn)(其中會(huì)夾著很多我自己對(duì)行業(yè),對(duì)問題的看法觀點(diǎn)),去講述我其中遇到的一些故事。

這樣也可能會(huì)有趣點(diǎn),降低純技術(shù)的枯燥感,當(dāng)然,也更符合我自己的文字筆法,希望你們能喜歡!

2. 蠻荒時(shí)代

企業(yè)為什么想起要做大數(shù)據(jù)?

一個(gè)中小型企業(yè),為什么突然就想起要開始做數(shù)據(jù),開始組建大數(shù)據(jù)團(tuán)隊(duì)呢?從目前現(xiàn)狀來看,這是一個(gè)很正常的現(xiàn)象。大家都做嘛!

但有沒有想過,為什么大家都做?

大數(shù)據(jù)這個(gè)鬼東西怎么在四五年前一下子就火的不行了,然后在這兩年更是成了香饃饃?大批大批的傳統(tǒng)IT從業(yè)人員,紛紛轉(zhuǎn)行搞大數(shù)據(jù)。這是真的,近一年來,我面試的很多人里,很多都是從傳統(tǒng)行業(yè)轉(zhuǎn)型到大數(shù)據(jù)的,甚至有六七年開發(fā)經(jīng)驗(yàn),依然毅然決然轉(zhuǎn)型的。這定然是市場(chǎng)驅(qū)動(dòng)使然,有利益就有市場(chǎng),有市場(chǎng)就有需求。

而資本市場(chǎng)也偏好靠數(shù)據(jù)說話的企業(yè),甚至出現(xiàn)了很多以數(shù)據(jù)業(yè)務(wù)為核心的企業(yè)公司,甚至專門做數(shù)據(jù)服務(wù)的行業(yè),一樣融到了大把大把的錢。

個(gè)人認(rèn)為企業(yè)開始關(guān)注,甚至是涉身大數(shù)據(jù),資本偏好只是表象,在其內(nèi)層必然還有更深層的原因。

在大數(shù)據(jù)真正興起的08/09年之前,整個(gè)互聯(lián)網(wǎng)都是一個(gè)蓬勃發(fā)展的時(shí)代,互聯(lián)網(wǎng)自身普及以及覆蓋度的提升,互聯(lián)網(wǎng)基礎(chǔ)實(shí)施、電腦智能設(shè)備等進(jìn)一步普及,為各個(gè)互聯(lián)網(wǎng)企業(yè)帶來了巨大的紅利。

15年的時(shí)候,我跟一個(gè)創(chuàng)業(yè)公司的CEO聊天時(shí),他說過一句話,我感覺很難概況這個(gè)情況:

當(dāng)年,我那個(gè)小論壇要是能堅(jiān)持做下去,現(xiàn)在估計(jì)早就發(fā)達(dá)了。

是的,沒錯(cuò),當(dāng)年就是隨便搞個(gè)網(wǎng)站,只要好好搞,基本都能吸引到一大片的人,有人就能產(chǎn)生利益。

換做更專業(yè)點(diǎn)的術(shù)語(yǔ)就是:流量紅利!

那么,到了現(xiàn)在,流量紅利早已消息不見了。面向各種人群、滿足各種需求的網(wǎng)站、軟件、APP等等,鋪天蓋地而來,讓用戶應(yīng)接不暇。

你需要的、你不需要的、你能想到的、你想不到的,五花八門的企業(yè)都會(huì)為你提供,你怎么選?!

所以,流量紅利消失了!那該怎么搞?

那效率和效果這個(gè)事情就不得不重視起來了,讓用戶更好的使用你的東西,讓你的東西更精準(zhǔn)化、讓你的員工策略方案更具有效率,那么,你就更能在千千萬萬的類似企業(yè)中生存下去。

那么,你的企業(yè)必然需要慢慢地遠(yuǎn)離“我覺得吧”、“我感覺”、“可能”、“或者”、“按道理應(yīng)該”等這種詞匯,一切回歸到數(shù)據(jù)中去,讓你的決策跟著數(shù)據(jù)走。

快速進(jìn)行方案假設(shè)、快速進(jìn)行數(shù)據(jù)反饋、快速進(jìn)行策略修正、快速進(jìn)行決策,讓自己跑的路線更準(zhǔn)、讓自己跑得更快。

讓你的用戶體驗(yàn)更好、用的更爽,讓他感覺更親切自然,而不是你強(qiáng)加于其上的意志,讓他被迫看你安排的東西、用既定功能。

所以,企業(yè)慢慢地開始講究預(yù)測(cè)用戶的心理,開始談必言其“個(gè)性化”。這聽起來很玄乎,但確實(shí)是實(shí)實(shí)在在的用戶本質(zhì)需求。因?yàn)?,用戶的口味也被我們各種同質(zhì)化嚴(yán)重應(yīng)用、軟件,給養(yǎng)刁了。

于是乎,大數(shù)據(jù)大行其道;于是乎,轉(zhuǎn)行者如過江之鯽。最重要的是,哈哈,它給了我一口飯吃。

你看到的是一個(gè)飲毛茹血的現(xiàn)狀!

在引入大數(shù)據(jù)這個(gè)概念之前,試想一下,企業(yè)的數(shù)據(jù)層面會(huì)是處于一個(gè)什么樣的狀況?

這里我想引用原始社會(huì)的一個(gè)標(biāo)志詞:“飲毛茹血”。

中小型企業(yè)一般使用傳統(tǒng)的數(shù)據(jù)庫(kù)來存儲(chǔ)業(yè)務(wù)數(shù)據(jù),并且很大一部分是MySQL(別問我為什么,因?yàn)樗赓M(fèi)?。?,我想,這點(diǎn)毋庸置疑。而一般的中小型企業(yè),特別是小型創(chuàng)業(yè)公司,基本是不配置專門的數(shù)據(jù)庫(kù)工程師的,都是業(yè)務(wù)開發(fā)人員兼任。

于是乎,你會(huì)看到各種各樣奇葩設(shè)計(jì)的數(shù)據(jù)庫(kù)表、各種各樣錯(cuò)綜復(fù)雜數(shù)據(jù)表關(guān)系、各種各樣看起來不合理其實(shí)用起來也不合理的數(shù)據(jù)存儲(chǔ)方式。

你以為你來做大數(shù)據(jù)的,這些業(yè)務(wù)數(shù)據(jù)就跟你沒關(guān)系嗎?!關(guān)系可大發(fā)了,你第一個(gè)要處理的數(shù)據(jù)就是業(yè)務(wù)數(shù)據(jù)。

你將會(huì)忙于天天跟業(yè)務(wù)開發(fā)人員溝通交流,焦頭爛額地去梳理清楚這些業(yè)務(wù)關(guān)系,甚至是轉(zhuǎn)換成你要的數(shù)據(jù)形態(tài)。

然后你會(huì)不自覺地吐槽:

我湊,尼瑪關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)也要做清洗呀!

其實(shí)這也是沒有辦法的事,歷史原因使然,人力成本使然,這是我們處于0的階段必然需要面對(duì)的東西。

在大數(shù)據(jù)這個(gè)體量中,業(yè)務(wù)數(shù)據(jù)只是占據(jù)了很小的一部分。是的,更多的是用戶的行為數(shù)據(jù),業(yè)務(wù)的訪問數(shù)據(jù)。

你可能會(huì)很高興的說,對(duì)了,不是有業(yè)務(wù)服務(wù)的log嗎?我們可以從log中清洗出很多有用的Visitor數(shù)據(jù)來,一個(gè)MapReduce就搞定啦,分分鐘的事。

啊,這個(gè)呀,當(dāng)時(shí)沒有想到要記錄下這些東西喲,沒有打這些LOG。

是不是想大噴一口血?情況好點(diǎn)的公司,雖然處理不了數(shù)據(jù),但是依然是有意識(shí)的在很多業(yè)務(wù)邏輯中,埋下業(yè)務(wù)的服務(wù)LOG,落成LOG文件,待有處理能力時(shí)再做處理。

再好點(diǎn)的,已經(jīng)有點(diǎn)數(shù)據(jù)意識(shí)了,開始在業(yè)務(wù)中主動(dòng)埋下一些數(shù)據(jù)收集點(diǎn),開始收集用戶的行為軌跡數(shù)據(jù)。

但依然是把數(shù)據(jù)存儲(chǔ)到了MySQL中,很多點(diǎn)位邏輯是錯(cuò)亂的,點(diǎn)位的收集目標(biāo)是不清晰的(也沒辦法清晰,因?yàn)槲叶疾恢酪趺从?,都是提前埋下,將來可能要用而已)?/p>

這已經(jīng)很不錯(cuò)了,雖然點(diǎn)位是不準(zhǔn)確的,雖然我不知道一天50萬、100萬的數(shù)據(jù)量,你的MySQL能撐幾天,但好歹是有了吧,已經(jīng)很不錯(cuò)了。

再好點(diǎn)的就是,已經(jīng)有大數(shù)據(jù)的一到兩個(gè)儲(chǔ)備人員了,已經(jīng)能夠近乎的將數(shù)據(jù)以近乎正確的姿勢(shì)存儲(chǔ)到hive或者HBase中,哪怕是HDFS里頭。

這已經(jīng)是偉大的進(jìn)步了,至少恭喜你,你已經(jīng)踏過了0的階段,步入了0.1時(shí)代!

3. 小結(jié)

以上基本上就是你進(jìn)入一個(gè)即將要開始做大數(shù)據(jù)的公司,所看到的東西。是不是一臉懵逼、大寫的尷尬?恨不得把這些亂七八糟的,一下子磁盤格式化掉。

這個(gè)時(shí)候,你需要做點(diǎn)什么?

這里,我所說的做什么,不是指開始動(dòng)手干。而是之前的準(zhǔn)備工作,算是前期工作吧。

進(jìn)入之后,第一時(shí)間當(dāng)然掌握如上那些信息了。接著,你需要好好跟你的老板談一談人生,啊不,是談?wù)勊降紫敫墒裁矗?/p>

他想達(dá)到一個(gè)什么樣的數(shù)據(jù)業(yè)務(wù)目標(biāo),想花多大的成本,下了多大決心去做這件事,僅僅是跟跟風(fēng)、炒炒概念,還是真的想解決問題。

這很重要,這關(guān)乎到你后續(xù)將投入的人力,不同階段的規(guī)劃,怎么去做這件事,做好這件事。

其實(shí)不單純這里,其他方面也是一樣的,遇到一個(gè)問題,一定是需要了解夠足夠的信息,徹底的了解需求才去做的,這不耽誤事,不然吃力不討好,妥妥的。

于此同時(shí),你需要慢慢根據(jù)蛋碎菊緊的現(xiàn)狀以及BOSS的“偉大宏圖”,去規(guī)劃你的人力了。至于說人力怎么搭配,什么年份、什么水平,這就需要看“菊花”到底有多緊,“宏圖”到底有多大,時(shí)間到底還有多少去思考了。

好了,背起你的鋤頭,去挖別人家的墻角吧;或者,刷臉的時(shí)候到了,萬能的朋友圈,彰顯你的威力吧!

 

作者:blogchong

本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@blogchong

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 并沒有看到這個(gè)H5…請(qǐng)問在哪刷的?

    回復(fù)