數(shù)據(jù)的能力和價值你真的了解嗎?
當(dāng)前大家都在談?wù)撘粋€話題——數(shù)據(jù),到底數(shù)據(jù)具有什么“魅力”,能讓無數(shù)人耗費(fèi)心血地去研究。
大數(shù)據(jù)是一個持久發(fā)熱的話題,而且熱火朝天的人工智能依賴于大數(shù)據(jù)的發(fā)展。大家都在討論數(shù)據(jù)能力,數(shù)據(jù)能力是一個很抽象的概念,那數(shù)據(jù)能力具體是什么?數(shù)據(jù)價值呢?
數(shù)據(jù)自身是沒有價值或者說微乎其微的,價值是被賦予的,就像黃金一樣,黃金的價值是他的應(yīng)用前景或場景。數(shù)據(jù)的價值就是數(shù)據(jù)能力體現(xiàn)出的收益,或者說投資回報率。
今天我們就來聊聊數(shù)據(jù)能力和價值。
說到大數(shù)據(jù)就不得不提數(shù)據(jù)倉庫,企業(yè)數(shù)據(jù)倉庫演化至最終階段或許會變?yōu)榇竽X中樞神經(jīng),如果要支撐起整個復(fù)雜的大腦和神經(jīng)系統(tǒng),需要一系列的復(fù)雜機(jī)制配合。
而這一套支撐體系在數(shù)據(jù)層面會形成大家口中長談的數(shù)據(jù)能力,而數(shù)據(jù)能力是什么?支撐體系又是什么?那具備了這些能力后的價值又是什么,如何應(yīng)用呢?
一、抽象的數(shù)據(jù)能力架構(gòu)
我把數(shù)據(jù)能力抽象概括為四個方向:傳輸能力、計算能力、算法能力和數(shù)據(jù)資產(chǎn)量級,后面會講述在這四個能力之上泛化出的數(shù)據(jù)應(yīng)用和價值。
圖1.1 抽象數(shù)據(jù)能力構(gòu)成
1. 數(shù)據(jù)傳輸能力
數(shù)據(jù)大部分的使用場景必然會涉及到數(shù)據(jù)傳輸,數(shù)據(jù)傳輸性能決定了部分應(yīng)用場景的實(shí)現(xiàn),數(shù)據(jù)實(shí)時的調(diào)用、加工、算法推薦和預(yù)測等;而傳輸抽象出來的支撐體系是底層的數(shù)據(jù)存儲架構(gòu)(當(dāng)然非同機(jī)房的傳輸還要考慮到網(wǎng)絡(luò)環(huán)境等。單純的小數(shù)據(jù)量調(diào)用等一般不會涉及到這些,但數(shù)據(jù)量級大、高并發(fā)且對SLA要求非常嚴(yán)格的時候,就是對數(shù)據(jù)傳輸能力的考驗)。
從產(chǎn)品的角度我把數(shù)據(jù)傳輸能力分解為:底層數(shù)據(jù)傳輸效率和應(yīng)用層數(shù)據(jù)傳輸效率。
底層的數(shù)據(jù)傳輸效率是指數(shù)據(jù)源進(jìn)入后的預(yù)處理階段的傳輸效率,即加工為產(chǎn)品所需的數(shù)據(jù)交付物之前階段。
圖2.1 數(shù)據(jù)應(yīng)用鏈路
Ps:數(shù)據(jù)在可為產(chǎn)品所用之前需要很長的一段加工過程,應(yīng)用層數(shù)據(jù)產(chǎn)品基本不涵蓋底層數(shù)據(jù)加工環(huán)節(jié),而數(shù)據(jù)產(chǎn)品會用到規(guī)定好的數(shù)據(jù)交付物(即已約定好的結(jié)構(gòu)化或標(biāo)準(zhǔn)化的數(shù)據(jù)),而利用此數(shù)據(jù)交付物再經(jīng)過產(chǎn)品對實(shí)際應(yīng)用場景的匹配和加工來提供數(shù)據(jù)服務(wù)。即使涉及底層數(shù)據(jù)管理的相關(guān)產(chǎn)品也是對Meta元數(shù)據(jù)、使用日志或?qū)懞玫膕hell等的調(diào)用。
底層數(shù)據(jù)加工計算所涉及到的傳輸效率,直接決定了支撐數(shù)據(jù)產(chǎn)品高性能、高可靠的自身需求;而應(yīng)用層的傳輸影響了用戶體驗和場景實(shí)現(xiàn)。傳輸機(jī)制和體系就像毛細(xì)血管一樣遍布全身錯綜復(fù)雜,但是流通速率直接決定了大腦供氧是否充足。
2. 數(shù)據(jù)計算能力
數(shù)據(jù)計算能力就像造血系統(tǒng)一樣,根據(jù)多種來源的養(yǎng)分原料進(jìn)行生產(chǎn)加工最終產(chǎn)出血液。而源數(shù)據(jù)通過高性能的底層多存儲的分布式技術(shù)架構(gòu)進(jìn)行ETL(抽取、轉(zhuǎn)換、裝載)清洗后產(chǎn)出的是數(shù)據(jù)中間層通用化的結(jié)構(gòu)化數(shù)據(jù)交付物。計算速度就像造血速度一樣,決定了供應(yīng)量。而計算速度直接決定了數(shù)據(jù)應(yīng)用的時效性和應(yīng)用場景。
目前最多最普遍的就是離線數(shù)倉,離線數(shù)倉大部分擔(dān)任著事后諸葛亮的角色,即沒辦法保證數(shù)據(jù)的及時性而延后了數(shù)據(jù)分析及應(yīng)用的產(chǎn)出,導(dǎo)致更多的是沉淀經(jīng)驗而難以做到實(shí)時決策。而實(shí)時數(shù)倉,甚至說對Data Lake(數(shù)據(jù)湖)的實(shí)時處理已經(jīng)逐步開放應(yīng)用多種場景。我們先不考慮越來越強(qiáng)烈的實(shí)時性要求帶來的巨大成本是否真的可以創(chuàng)造等值的收益。
強(qiáng)實(shí)時可以更接近一個“未來”的狀態(tài),即此時此刻。這遠(yuǎn)比算法對未來的預(yù)測更有價值,因為把握眼前比構(gòu)造多變的未來對一個企業(yè)更有價值。甚至說當(dāng)數(shù)據(jù)過程快過神經(jīng)元的傳遞,那么從獲取到你腦電波的那一刻起,數(shù)據(jù)處理的驅(qū)動結(jié)果遠(yuǎn)比神經(jīng)元傳遞至驅(qū)動四肢要快。
是不是與兵馬未動,糧草先行的場景相似?當(dāng)然這是以數(shù)據(jù)計算能力的角度來看待這個問題。跳出來以我個人的觀點(diǎn)來說,整體數(shù)據(jù)能力強(qiáng)大到一定階段后,會從主觀改變個人的意愿,即通過引導(dǎo)你的大腦從而來控制或決定個人行為且不會讓你感知,所以可以理解為從主觀改變個人意愿。從人的角度來說,你并不知道或者直觀意愿去憑空決定下一步要做什么,因為大腦是邏輯處理器,當(dāng)然這又涉及到心理學(xué),這些觀點(diǎn)就不在此贅述了,等往后另起一個篇幅來說數(shù)據(jù)應(yīng)用未來前景和假想。
3. 數(shù)據(jù)資產(chǎn)能力
都在說“大”數(shù)據(jù),那么數(shù)據(jù)量級越大越好嗎?并不是,從某種角度來說大量無價值或者未探索出價值的數(shù)據(jù)是個負(fù)擔(dān),巨大的資源損耗還不敢輕易抹滅。
隨著數(shù)據(jù)量級的急劇放大,帶來的是數(shù)據(jù)孤島:數(shù)據(jù)的不可知、不可聯(lián)、不可控、不可??;那么散亂的數(shù)據(jù)只有轉(zhuǎn)換成資產(chǎn)才可以更好的發(fā)揮價值。
什么是數(shù)據(jù)資產(chǎn),我覺得可以廣泛的定義為可直接使用的交付數(shù)據(jù)即可劃為資產(chǎn),當(dāng)然可直接使用的數(shù)據(jù)有很多種形式,比如meta元數(shù)據(jù)、特征、指標(biāo)、標(biāo)簽和ETL的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)等。
目前也在拓展Data Lake的使用場景,直接實(shí)時的使用和處理Data Lake數(shù)據(jù)的趨勢是一種擴(kuò)大企業(yè)自身數(shù)據(jù)資產(chǎn)范圍和資產(chǎn)使用率的方式。這有利于突破數(shù)倉模型對數(shù)據(jù)的框架限定,改變數(shù)據(jù)使用方式會有更大的想象空間。
數(shù)據(jù)資產(chǎn)的價值可以分兩部分來考慮:一部分是數(shù)據(jù)資產(chǎn)直接變現(xiàn)的價值;另一部分是通過數(shù)據(jù)資產(chǎn)作為資源加工后提供數(shù)據(jù)服務(wù)的業(yè)務(wù)價值。
第一部分比較好理解,就是數(shù)據(jù)集的輸出變現(xiàn)值,如標(biāo)簽、樣本和訓(xùn)練集等的直接輸出按數(shù)據(jù)量來評估價值;第二部分價值比如通過自身數(shù)據(jù)訓(xùn)練優(yōu)化后的算法應(yīng)用而提升業(yè)務(wù)收益的價值或依于數(shù)據(jù)的廣告投放的營銷變現(xiàn)等,甚至說沉淀出的數(shù)據(jù)資產(chǎn)管理能力作為知識的無形資產(chǎn)對外服務(wù)的價值。這些間接的數(shù)據(jù)應(yīng)用和服務(wù)的變現(xiàn)方式也是數(shù)據(jù)資產(chǎn)價值的體現(xiàn)并可以精細(xì)的量化。
4. 數(shù)據(jù)算法能力
其實(shí)無論是傳輸能力還是計算能力,都是相對偏數(shù)據(jù)底層的實(shí)現(xiàn),而離業(yè)務(wù)場景最近的就是算法能力所提供的算法服務(wù),這是最直接應(yīng)用于業(yè)務(wù)場景且更容易被用戶感知的數(shù)據(jù)能力,因為對于傳輸和計算來說用戶感知的是速度快慢,從用戶視角快是應(yīng)該的,因此用戶并不知道何時何地計算或傳輸。
而算法對業(yè)務(wù)應(yīng)用場景是一個從0到1,從無到有的過程。并且算法是基于數(shù)據(jù)傳輸、計算和資產(chǎn)能力之上泛化出的應(yīng)用能力,或者換句話說是三個基礎(chǔ)能力的封裝進(jìn)化。
而算法能力是把多元的數(shù)據(jù)集或者說獲取到盡可能多的數(shù)據(jù)轉(zhuǎn)化為一個決策判斷結(jié)果來應(yīng)用于業(yè)務(wù)場景。算法能力的強(qiáng)弱反映了三個數(shù)據(jù)能力是否高效配合,是否存在木桶效應(yīng),更甚者木桶也沒有。當(dāng)然單純的算法也可以單獨(dú)作為無形資產(chǎn)的知識沉淀來提供服務(wù)。
對于數(shù)據(jù)能力架構(gòu)中的四大能力,傳輸、計算和資產(chǎn)是基礎(chǔ)能力,而算法是高級的泛化能力。而能力的輸出和應(yīng)用才能體現(xiàn)數(shù)據(jù)價值,數(shù)據(jù)能力的最大化輸出考驗著整個數(shù)據(jù)產(chǎn)品架構(gòu)體系的通用性和靈活性。因為需要面對的是各種業(yè)務(wù)演化出的多種多樣場景,對數(shù)據(jù)能力的需求參差不齊:可能是片面化的,也可能是多種能力匹配協(xié)調(diào)的。這對產(chǎn)品的通用性就是一個巨大的挑戰(zhàn),想更好的應(yīng)對這個問題,可能就需要整個數(shù)據(jù)平臺的產(chǎn)品矩陣來支撐和賦能。
二、數(shù)據(jù)能力對應(yīng)數(shù)據(jù)價值的呈現(xiàn)
從數(shù)據(jù)應(yīng)用的角度,每個能力都可以獨(dú)立開放也可以組合疊加。如果把能力具象出來就會衍生到產(chǎn)品形態(tài)的問題,產(chǎn)品形態(tài)是對能力適配后發(fā)揮作用的交付物。說到產(chǎn)品形態(tài)我們可以想象一下應(yīng)用場景。
首先最基礎(chǔ)的應(yīng)用場景就是數(shù)據(jù)直接調(diào)用,數(shù)據(jù)資產(chǎn)的使用基本會基于特征、指標(biāo)、標(biāo)簽或者知識等交付形態(tài)。而對于使用方來說這些數(shù)據(jù)會作為半成品原料或依據(jù)來進(jìn)行二次加工應(yīng)用于業(yè)務(wù)場景中,如數(shù)據(jù)分析、數(shù)據(jù)挖掘、算法的訓(xùn)練與驗證、知識圖譜、個性推薦、精準(zhǔn)投放(觸達(dá))和風(fēng)控等。數(shù)據(jù)資產(chǎn)可以統(tǒng)歸為在數(shù)據(jù)市場中通過構(gòu)建的一些OpenAPI進(jìn)行賦能。
而對于一個工廠來說,僅僅進(jìn)行原材料的加工(ETL)輸出即除了自身原材料(數(shù)據(jù)資產(chǎn))的壁壘外核心競爭力很小,需要包裝一些上層的基礎(chǔ)服務(wù)來提升競爭力,那么數(shù)據(jù)計算的能力融合進(jìn)來對原材料進(jìn)行二次加工(聚合統(tǒng)計)。
計算的聚合統(tǒng)計能力加入進(jìn)來后可以滿足大部分的數(shù)據(jù)分析場景的支持,就不單單是原材料毫無技術(shù)含量的輸出,并可以以半成品的形態(tài)規(guī)避數(shù)據(jù)敏感。因為對于統(tǒng)計值來說,這是一個分析結(jié)果或結(jié)論,并不會涉及到自身敏感數(shù)據(jù)的輸出,因此你的核心資產(chǎn)不會泄露,而輸出的僅僅是資產(chǎn)的附加值。換句話說知識產(chǎn)權(quán)專利依然在你手中,通過控制專利泛化出的能力進(jìn)行投資回報。
融入計算能力后的一些分析場景如:人群的畫像分析、多維度的交叉分析、業(yè)務(wù)的策略分析和監(jiān)控分析等多種場景。
隨著時代的發(fā)展和業(yè)務(wù)場景的增多,這時工廠繼續(xù)需要產(chǎn)業(yè)變革,要深耕服務(wù)業(yè)逐步拋棄制造業(yè)形態(tài),全面提升更高級的數(shù)據(jù)服務(wù)。這時算法能力的加入來更好的完善服務(wù)矩陣。
算法通過封裝了傳輸、計算和資產(chǎn)能力而進(jìn)行統(tǒng)一的更好理解的業(yè)務(wù)場景目標(biāo)預(yù)測和識別等。這樣對于企業(yè)來說可以更容易接受和低成本使用數(shù)據(jù)服務(wù)而不需要再涉及到數(shù)據(jù)加工鏈路中,而僅僅需要一個目標(biāo)結(jié)果,通過算法的決策作為參考來指導(dǎo)業(yè)務(wù)方向。像算法對一些業(yè)務(wù)場景的預(yù)測分析,甚至說一些人工智能場景的識別或?qū)W習(xí)思考,都可以通過算法賦能來實(shí)現(xiàn)。對于企業(yè)來說就是從無到有的突破,企業(yè)發(fā)展進(jìn)程甚至可能提升好幾年。
而貫穿以上能力應(yīng)用場景都是對數(shù)據(jù)傳輸能力的考驗。
圖3.1 數(shù)據(jù)能力架構(gòu)及應(yīng)用
產(chǎn)品經(jīng)理在這之中的價值是什么?我認(rèn)為是抽象出通用能力,然后靈活的組合運(yùn)用來構(gòu)建產(chǎn)品架構(gòu)和體系,最終根據(jù)服務(wù)方式確定產(chǎn)品形態(tài)。
當(dāng)然這一切要基于既定的商業(yè)或業(yè)務(wù)方向,甚至說在未知的探索中可以靈活適配多種商業(yè)方向或業(yè)務(wù),那這就不僅僅是一個平臺而是變成了一個大中臺。
對于這些數(shù)據(jù)能力和應(yīng)用場景來說,如何構(gòu)建一套靈活適配的產(chǎn)品體系和架構(gòu)是能力與場景適配的關(guān)鍵,這個問題留到下次來探討。
本文由 @戲說貓狗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!