【數(shù)據(jù)治理】主數(shù)據(jù)識別的影響因素和識別方法
在當(dāng)今數(shù)據(jù)驅(qū)動的商業(yè)環(huán)境中,對數(shù)據(jù)的有效管理變得尤為重要。其中,主數(shù)據(jù)管理(MDM)作為確保企業(yè)數(shù)據(jù)質(zhì)量和一致性的關(guān)鍵環(huán)節(jié),一直受到數(shù)據(jù)管理者的重視。
01.影響主數(shù)據(jù)判定和識別的因素
上一篇文章(【數(shù)據(jù)治理】主數(shù)據(jù)的基本概念和未來展望),在說明主數(shù)據(jù)的基本概念時,給出了主數(shù)據(jù)的一些關(guān)鍵詞:穩(wěn)定、復(fù)用、高價值。
但是主數(shù)據(jù)的判定和識別不能脫離具體場景和情況。某一個數(shù)據(jù),在不同的情況下,可能會有不同的判定和識別結(jié)果。這也是之前文章提到過的。
“在具體實踐過程中,主數(shù)據(jù)并沒有一個金科玉律般的標(biāo)準(zhǔn)。同一行業(yè)不同企業(yè)、同一企業(yè)不同發(fā)展階段,主數(shù)據(jù)都可能是不一樣的?!?/strong>
那么,有哪些影響主數(shù)據(jù)判定和識別的因素呢?
一般情況下,主數(shù)據(jù)是相對穩(wěn)定的。比如,公司的產(chǎn)品信息、供應(yīng)商信息、組織架構(gòu)、用戶信息等。但是主數(shù)據(jù)也會隨著業(yè)務(wù)發(fā)展階段、業(yè)務(wù)運營模式和業(yè)務(wù)管控策略發(fā)生變化,這種情況下,企業(yè)就需要根據(jù)具體情況進行主數(shù)據(jù)的增刪操作。
1. 業(yè)務(wù)發(fā)展階段
隨著業(yè)務(wù)的發(fā)展,某些數(shù)據(jù)的重要性開始提升并開始在不同系統(tǒng)內(nèi)被重復(fù)使用,業(yè)務(wù)對這些數(shù)據(jù)的穩(wěn)定性提出了更高的要求。因此,這些數(shù)據(jù)就需要納入主數(shù)據(jù)管理的范疇。
比如,現(xiàn)在有一個商店,業(yè)務(wù)發(fā)展初期維護了基本用戶信息。隨著業(yè)務(wù)更好地發(fā)展,推出了會員體系。此時,會員信息會被很多其他業(yè)務(wù)系統(tǒng)重復(fù)使用,因此,用戶的會員相關(guān)數(shù)據(jù),就需要納入到主數(shù)據(jù)管理范疇。
2. 業(yè)務(wù)運營模式
隨著市場需求的變化,技術(shù)的進步,外部競爭環(huán)境的變化等,企業(yè)也不得不主動或被動地轉(zhuǎn)變業(yè)務(wù)運營模式,而運營模式的轉(zhuǎn)變,會影響主數(shù)據(jù)的劃分。
比如,京東在初期,以線下銷售為主。在2004年開始嘗試線上銷售,后逐步發(fā)展為以線上銷售為主。
如果京東從一開始就有主數(shù)據(jù)管理的話,可能在初期,更關(guān)注實體店鋪的運營,主數(shù)據(jù)可能主要集中在商品信息、供應(yīng)鏈信息、庫存數(shù)據(jù)等方面。
線上銷售時期,除了初期的主數(shù)據(jù),還會把線上的商鋪信息、用戶信息等都納入到主數(shù)據(jù)管理。
同樣的一個案例,也是因為業(yè)務(wù)運營模式的調(diào)整,導(dǎo)致主數(shù)據(jù)劃分發(fā)生了變化。只不過是對現(xiàn)有主數(shù)據(jù)進行刪減。
2022年比亞迪宣布自2022年3月起停止燃油汽車的整車生產(chǎn)。這次調(diào)整,可能會對產(chǎn)品信息數(shù)據(jù)、零部件數(shù)據(jù)產(chǎn)生影響。
3. 業(yè)務(wù)管控策略
對于一些大型的集團,想要掌控各個分公司的客戶數(shù)據(jù),是非常困難的,阻力很大。所以,即使集團總部想掌握這些重要的客戶數(shù)據(jù),但是因為沒有辦法被總部利用,沒有辦法在總部流通和使用,所以分公司的客戶,銷售數(shù)據(jù),不算主數(shù)據(jù)。
02.主數(shù)據(jù)識別方法
主數(shù)據(jù)的識別是主數(shù)據(jù)管理中最終的一項工作。主數(shù)據(jù)不是拍腦袋確定的。需要有比較科學(xué)合理的方法。接下來介紹兩種主數(shù)據(jù)識別的方法。
1. 主數(shù)據(jù)特征識別法
「如果有一個動物長得像鴨子,叫聲像鴨子,走路像鴨子,那么它是鴨子」
主數(shù)據(jù)特征識別法就是這種思路。假如某個數(shù)據(jù)完全符合主數(shù)據(jù)的特征,那可以肯定的說,這個數(shù)據(jù)就是主數(shù)據(jù)。
在定義的基礎(chǔ)上,擴展一下,可以從以下的幾個角度來判斷數(shù)據(jù)是否是主數(shù)據(jù)。
- 高價值性:主要看是否體現(xiàn)業(yè)務(wù)的核心價值。客戶的基本信息肯定是具有核心價值的,但是客戶的配送地址所在省份就不是核心價值數(shù)據(jù)了;
- 實體獨立性:主要體現(xiàn)在不可分割性和完整性。例如,主數(shù)據(jù)管理中比較高頻的客戶主數(shù)據(jù)??蛻糁鲾?shù)據(jù)是作為一個整體被管理的,其包含的各個信息項(名稱、聯(lián)系方式、賬戶等)不會被單獨查分出來作為獨立的數(shù)據(jù)實體進行管理。完整性指的是,公司在維護相關(guān)實體數(shù)據(jù)時,會盡可能全面地收集信息,以確保數(shù)據(jù)的完整、準(zhǔn)確;
- 相對穩(wěn)定性:主數(shù)據(jù)在時間范圍內(nèi)保持相對穩(wěn)定、不頻繁發(fā)生變更是主數(shù)據(jù)的一個重要特征。在線教育行業(yè)會維護用戶的基本信息,其中年齡是一個每年都會變更的數(shù)據(jù),那么年齡就不是主數(shù)據(jù),而可以把不變更的生日數(shù)據(jù)維護進主數(shù)據(jù);
- 高共享性:是否被其他系統(tǒng)引用是一個很重要的特征,即使某個數(shù)據(jù)具有非常高的價值,但是,它只在某一個系統(tǒng)內(nèi)流轉(zhuǎn),那也不能算是主數(shù)據(jù);
- 識別唯一性:主數(shù)據(jù)具有權(quán)威性,而權(quán)威性體現(xiàn)在識別唯一性。有些數(shù)據(jù)在系統(tǒng)內(nèi)是不具備識別唯一性的。比如,用戶昵稱;
- 長期有效性:短期、臨時使用的數(shù)據(jù),一般不會作為主數(shù)據(jù)。
可以做一個表格,對數(shù)據(jù)進行判斷。對各個維度進行評估,然后根據(jù)每個維度的評估情況判定是否是主數(shù)據(jù)。
2. 業(yè)務(wù)共享矩陣法
在特征識別法中,有6個特征。那么,這6個特征是否可以簡化一下,這樣主數(shù)據(jù)識別也會更簡便些。
在6個特征中,可以只選取高價值和高共享。
其他的4個特征,從某種層面講,是這兩個特征的衍生。高共享在一定程度上決定了,數(shù)據(jù)一定是識別唯一性的。其他的特征也可以推理出。
基于此,有了評估數(shù)據(jù)的重要程度和共享程度的業(yè)務(wù)共享矩陣法。
根據(jù)兩個維度對字段進行評估,雙高的大概率是主數(shù)據(jù),雙低的大概率不是主數(shù)據(jù),難點就在于如何區(qū)分那些中間狀態(tài)的。
我自己總結(jié)了一個方法??梢詮脑c到最右上角畫一條直線。越靠近線右上角的,越有可能是主數(shù)據(jù),不過,采用這個辦法也有可能拿不準(zhǔn),這就需要有業(yè)務(wù)經(jīng)驗,數(shù)據(jù)治理經(jīng)驗的專業(yè)老師進行區(qū)分了。這個步驟,主要是把那些明顯是,大概率是,明顯不是,大概率不是的數(shù)據(jù)區(qū)分出來。
本文由 @孟老濕 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!