詳解用戶體系/ID-Mapping
在實際生活場景中,我們可能會遇到很多無法獲取用戶設(shè)備號/手機號的場景或者更復雜的情況,基于這類情況,作者做出一個設(shè)想,并對相關(guān)方案和ID-Mapping做了詳細闡述,一起來看。
一、大背景
中小企業(yè)的user_center_id(全域唯一id)是基于設(shè)備號/手機號生成,即需要獲取用戶的設(shè)備號/手機號才能生成用戶在全域的唯一id,并且打通的是帶有全域唯一id的數(shù)據(jù),那么無法打通那些無法獲取用戶設(shè)備號/手機號的場景下產(chǎn)生數(shù)據(jù)。
羅列一下無法獲取用戶設(shè)備號/手機號的場景或者更復雜的情況:
- 用戶作為游客打開H5頁面但是還沒購買就走了,沒獲取到用戶設(shè)備號/手機號,流失一個銷售機會但不知道原因也無法進行下一步動作。如果能夠關(guān)聯(lián)到已有的用戶,那么我們可能可以再次對這個銷售機會有所動作——可能是通過手機號/郵箱/私域/app,看關(guān)聯(lián)到什么。
- 用戶有多個設(shè)備,第一天在電腦上看了企業(yè)的某個網(wǎng)站上的攝影內(nèi)容,第二天又關(guān)注了企業(yè)了微信號繼續(xù)看攝影內(nèi)容,第三天在手機上下載了app看了一會攝影相關(guān)內(nèi)容(可能因為app的引導),在app內(nèi)銷售對其發(fā)起了會話開始聊關(guān)于攝影的內(nèi)容,但沒有意識到這是一個對攝影興趣濃厚的用戶,因為數(shù)據(jù)沒有打通,可能錯失一個及時銷售的機會。
- 當客戶進入私域時,只有微信號,關(guān)聯(lián)不到全域內(nèi)其他的數(shù)據(jù),因而銷售只能基于陌生的一次會話去挖掘銷售機會,缺少深度的個性化的服務(wù),沒有懂用戶的感覺。
- ……
基于此業(yè)務(wù)背景,我們做出一個設(shè)想:我們將若干個實體歸攏到一起并將之命名為OneEntity。歸攏雖然有據(jù)可依,但終究是基于大數(shù)據(jù)算法進行的設(shè)想,不可能與現(xiàn)實世界一模-樣,因此,其只可能是“無限逼近”。在“無限逼近”的過程中,根據(jù)實體歸攏的效果及能否貼上“特定標簽”,OneEntity在理論上可以分為一般質(zhì)量OneEntity、高質(zhì)量OneEntity和高價值OneEntity。
其中,高質(zhì)量OneEntity是指能夠貼上“特定標簽”的OneEntity,這里的“特定標簽’會因業(yè)務(wù)和場景而異。不能夠貼上“特定標簽”的OneEntity,我們稱之為一般質(zhì)量OneEntity。而高價值OneEntity則是在高質(zhì)量OneEntity的基礎(chǔ)上提出進一步要求,不僅要能用標簽等來精準刻畫,還要達到實際意義上的可精準觸達。
假設(shè)現(xiàn)在有上千億條大數(shù)據(jù)世界里的實體數(shù)據(jù),歸攏得到的6億個OneEntity。其中一般質(zhì)量OneEntity 有4億,高質(zhì)量OneEntity有1.5億,高價值OneEntity有0.5億。
以觸達營銷場景為例,假設(shè)高價值觸達UV的平均收入為0.2,則對0.5億個高價值OneEntity來說,能夠?qū)崿F(xiàn)營收1000萬;假設(shè)高質(zhì)量觸達UV的平均收入為0.05,能夠?qū)崿F(xiàn)營收750萬;假設(shè)一般質(zhì)量觸達UV的平均收入為0.025,能夠?qū)崿F(xiàn)營收1000萬。那么,對業(yè)務(wù)人員而言,高價值OneEntity就是其最想要的,高質(zhì)量OneEntity也是不錯的,一般質(zhì)量OneEntity是退而求其次的選擇,但沒有經(jīng)過任何歸攏的實體數(shù)據(jù)則是技術(shù)人員不追求、業(yè)務(wù)人員不欣賞的。看似如果能把握好一般質(zhì)量和高質(zhì)量用戶也能產(chǎn)生不錯的效益。
二、業(yè)務(wù)流程
該業(yè)務(wù)流程基于用戶旅程角度進行描述。
大多數(shù)的公司的業(yè)務(wù)流程如下:
- 通過投放或者商務(wù)合作的方式將公域流量導到自建觸點上——App、H5、Web或者直接導流到私域。
- 自建觸點之間會互相進行導流。
- 自建觸點會將流量導到私域。
- 第三方觸點之間會互相進行導流。
- 最后自建觸點和第三方觸點開始無序地導流,形成一張無中心的導流網(wǎng)絡(luò)。
總的來說:
- 用戶的旅程觸及的點可能會比較多,因為集團內(nèi)部的導流關(guān)系比較復雜。
- 在另一方面如果能將用戶在各個觸點的信息串聯(lián)起來,將很大程度上能夠全面描述客戶的情況,形成客戶檔案,能夠為各種營銷動作提供價值,例如:銷售針對客戶個性化服務(wù),根據(jù)客戶旅程信息智能推薦,定時個性化發(fā)送觸達任務(wù)等等。
三、方案
1. 概述
對于私域而言;
在私域內(nèi)部,單個主體內(nèi),以union_id作為打通的第一優(yōu)先級id,第二優(yōu)先級id為手機號碼,因為對于個人號而言沒有union_id(不在主體下,在這里為了更全面地描述私域,將個人號也放在了主體下)。不同的主體之間打通的第一優(yōu)先級id為手機號碼,第二優(yōu)先級id是微信號。
在私域外部,私域生態(tài)以手機號碼為打通的id與外部的數(shù)據(jù)進行打通。
對于APP而言;
在APP內(nèi)部,對于已登錄的用戶,使用手機號碼進行打通。對于未登錄的用戶,使用設(shè)備號打通。對于已登錄的用戶和未登錄用戶之間的打通,使用設(shè)備號。
在APP外部,APP生態(tài)以手機號碼與外部數(shù)據(jù)進行打通。
對于H5而言;
在H5內(nèi)部,對于已登錄的用戶,使用手機號碼進行打通。對于未登錄的用戶,使用cookie打通。已登錄的用戶和未登錄的用戶之間使用cookie打通。
在H5外部,對于已登錄用戶使用手機號碼進行打通,對于完全未登錄過的用戶使用算法與one-id進行關(guān)聯(lián),可以使用相似度原理與one-id進行關(guān)聯(lián)。
對于第三方平臺而言;
第三方平臺很多,例如:淘寶、小紅書、抖音、天貓等等,但是訂單一般都是進入ERP,因此僅寫了ERP。使用ERP訂單中的用戶手機號碼與外部數(shù)據(jù)進行打通。
最終以one-id作為全域的唯一id,關(guān)聯(lián)全域數(shù)據(jù)。
四、框架
1. ID架構(gòu)
5級結(jié)構(gòu)。
- 第一級:one-id。在邏輯上,該ID是直接標識用戶。作為全域唯一標識一個用戶的的ID。
- 第二級:業(yè)務(wù)id。在邏輯上,該ID是業(yè)務(wù)線對于用戶的標識。
- 第三級:三級id。在邏輯上,該ID是標識用戶的什么,強關(guān)聯(lián)關(guān)系的ID,例如手機號碼、設(shè)備號、[主體+unionid]、郵箱等等。
- 第四級:四級id。在邏輯上,該ID是三級id的子id。
- 第五級:五級id。在邏輯上,該ID是標識匿名用戶的什么,弱關(guān)聯(lián)關(guān)系的ID,例如cookie、IP、UA等等。
2. 關(guān)聯(lián)整體架構(gòu)
1.制定one-id SDK,各個生態(tài)的采集規(guī)則,以便之后有豐富的數(shù)據(jù)可以關(guān)聯(lián)。
2.注冊:通過one-id SDK集成到各個觸點中,當用戶進入觸點時,觸發(fā)SDK,SDK與注冊中心(注冊中心背后的核心引擎是關(guān)聯(lián)中心)進行交互,產(chǎn)生2種one-id,一是游離態(tài)one-id,二是穩(wěn)定態(tài)one-id。穩(wěn)定態(tài)one-id將不再變化(其實還是會變的,不是實際意義上的絕對穩(wěn)定,像身份證ID)。游離態(tài)是由于各種無法打通全域的id生成,而穩(wěn)定態(tài)則是由手機號碼生成。完成注冊時,用戶的所有id和屬性將同步給大數(shù)據(jù),大數(shù)據(jù)再后續(xù)的關(guān)聯(lián)中心中會做進一步的處理。注意:對于游離態(tài)id需要記錄其回溯時間,即生成該id的時間,以便之后在關(guān)聯(lián)的過程中,若游離態(tài)的id變更了one-id,可以對應地去修改已存儲的數(shù)據(jù)。
3.再關(guān)聯(lián):各個游離態(tài)one-id將進入關(guān)聯(lián)中心試圖與穩(wěn)定態(tài)進行關(guān)聯(lián)或者與其他的id進行關(guān)聯(lián)。沒有關(guān)聯(lián)上的將繼續(xù)保留原狀,已關(guān)聯(lián)上的將可能變更其one-id以及修改對應的數(shù)據(jù)的one-id,例如訂單數(shù)據(jù)、日志數(shù)據(jù)等等。
4.若用戶的信息變更可能觸發(fā)id的信息分裂。
5.定期驗證mapping的準確性。
五、細節(jié)步驟
1. 采集
關(guān)于各個生態(tài)SDK采集的數(shù)據(jù):
將SDK集成到各個觸點中,當用戶進入觸點時即觸發(fā)用戶信息的采集,采集之后將用于下一步的注冊。
網(wǎng)上查找到的一些資料:
Android-App:
安卓系統(tǒng)歷經(jīng)多次升級,對權(quán)限控制越來越嚴格,唯一識別手機的方法也在發(fā)生變化。下面整理一下安卓系統(tǒng)適合做設(shè)備唯一標識符的幾個標識符,以及其特性:
從表格中看出,IMEI是最適合做設(shè)備唯一標識的,奈何獲取IMEI需要授予權(quán)限且Android 10以后不再開放IMEI的權(quán)限。綜合起來,安卓系統(tǒng)中,應該按照IMEI ->OAID -> ANDROID_ID的順序生成設(shè)備ID。即先獲取IMEI號,獲取不到IMEI時獲取OAID,獲取不到OAID時,再獲取ANDROID_ID。
IOS-App:
蘋果系統(tǒng),可用于識別唯一設(shè)備的標識不多,如下圖。綜合起來,蘋果系統(tǒng)生成設(shè)備ID的標識符順序應該是IDFA -> IDFV ->UDID,即先獲取IDFA,獲取不到在獲取IDFV,獲取不到IDFV時,再獲取UDID。
微信小程序獲取用戶IP:https://www.csdn.net/tags/MtjacgzsNjgwMzMtYmxvZwO0O0OO0O0O.html
微信公眾號獲取用戶IP:暫時沒有發(fā)現(xiàn)方法。
2. 注冊
根據(jù)用戶信息的優(yōu)先級進行注冊。
1)各個生態(tài)注冊id優(yōu)先級
① APP生態(tài)
IOS:
Android:
② H5生態(tài)/WEB生態(tài)
③ 微信生態(tài)
個人微信號:
企業(yè)微信:
微信小程序:
微信公眾號:
④ 其他生態(tài)
通過訂單中的手機號碼進行注冊。
2)注冊邏輯
① 初步mapping
初步mapping在一定程度上進行了數(shù)據(jù)的打通,關(guān)鍵點在于在生成id時會去查詢是否已有相關(guān)的信息點生成的id。但是它還沒有解決全域打通的問題,例如一個用戶使用蘋果手機在APP1上通過IDFA生成了一個id1,后來又使用安卓手機在APP2上OAID生成一個id,后來2個賬號都輸入了手機號碼,如果沒有打通這一步的話,那么2部分信息依然是割裂的,因此需要再mapping。
② re-mapping
案例:
邏輯:
回溯歷史數(shù)據(jù):
進行再re-mapping時,會產(chǎn)生新的one-id取代舊的,此時將修改歷史數(shù)據(jù)中的one-id。那么我們需要一個回溯的時間點,修改什么時間段內(nèi)的數(shù)據(jù),暫且稱之為回溯時間點。這個時間點與我們初次生成one-id的時間點是一致的,因此可以根據(jù)這個時間點對數(shù)據(jù)進行修改。并且我們將新id告知各業(yè)務(wù)系統(tǒng),各業(yè)務(wù)系統(tǒng)也做出對應的修改。
屬性合并:
每個業(yè)務(wù)系統(tǒng)都需要在更新用戶信息時將之上報。每個系統(tǒng)需要有一個id,每個數(shù)據(jù)上報上來都帶有系統(tǒng)id,上報上來的數(shù)據(jù)將經(jīng)過評審確定其準確性與優(yōu)先級。上報上來后將根據(jù)優(yōu)先級決定是否替換歷史數(shù)據(jù),若無歷史數(shù)據(jù)則默認填充。最后達到的效果是每個屬性字段都力求最真實,來源于最可靠的數(shù)據(jù)來源。
涉及到屬性合并的有2個場景:初步mapping和再次mapping,原則都是根據(jù)數(shù)據(jù)來源的優(yōu)先級決定是否替換歷史數(shù)據(jù)。
用戶信息的修改:
當用戶的信息修改后,有兩種大的情況。
1.id已經(jīng)與其他id形成關(guān)聯(lián),在修改后將判斷是否還能與其他id形成關(guān)聯(lián)。
- 能形成關(guān)聯(lián):依然與其他的id,one-id不變,將觸發(fā)屬性的重新合并過程——基于最新的屬性情況。
- 不能形成關(guān)聯(lián):與其他的id脫離,從集體中分裂出來,將重新走初步mapping流程得到one-id。將觸將發(fā)屬性的重新合并過程——基于最新的屬性情況。
2.id與其未他id形成關(guān)聯(lián),其one-id不會改變。
在整個mapping中有一個原則就是盡量少地使用現(xiàn)在已有的one-id,以及盡量減少one-id的更改。
無法獲取手機號碼和設(shè)備號等明確信息的用戶的關(guān)聯(lián)算法預測:
關(guān)聯(lián)的核心是時空條件序列(也就是多個時空信息)的重合度計算,也就是時間和位置的重合度。為了增強辨識的準確性,增加了重合度計算因子:手機品牌和型號。最終重合度計算因子是時間、位置、手機品牌-型號、產(chǎn)品屬性、網(wǎng)絡(luò),將采用Jaccard Coefficient算法。
概述方法:使用H5中的IP+UA解析出位置和手機品牌-型號,與app生態(tài)、微信生態(tài)進行比較。在與app生態(tài)進行比較時,使用位置、手機品牌-型號(位置由IP解析出,手機品牌和型號app中可獲得);與微信生態(tài)進行比較時,使用位置(位置由IP解析出)。
在用戶經(jīng)過初步mapping流程之后得到one-id,之后我們將進行算法re-mapping流程,這個流程是要是經(jīng)過算法去預測用戶與游離態(tài)/穩(wěn)定態(tài)ID的關(guān)聯(lián)度,通過關(guān)聯(lián)度與游離態(tài)/穩(wěn)定態(tài)ID關(guān)聯(lián)起來,最后達到辨識匿名客戶的目的。
在進行算法re-mapping流程之前或者之后,用戶可能更改了自己的信息或者我們通過某些手段能夠獲得用戶的更多信息等等,總而言之就是客戶的信息改變了,此時我們要嘗試去re-mapping,看看最新的信息點能不能與與游離態(tài)/穩(wěn)定態(tài)ID直接關(guān)聯(lián),而不是通過算法猜測。
那么關(guān)鍵的步驟是:
- 根據(jù)匿名的信息先經(jīng)過初步mapping給一個one-id。
- 定期進行算法re-mapping,但是在此之前先進行一步re-mapping。注意:re-mapping是上文中提到的,而算法re-mapping在這里剛提出的,用于猜測用戶與其他ID的關(guān)聯(lián)度,如果關(guān)聯(lián)度合適,將需關(guān)聯(lián)的ID進行關(guān)聯(lián)。re-mapping流程是我們之前已經(jīng)講了很多的,這里我重點講講算法re-mapping。
③ 算法re-mapping
流程概述:
詳細方案:
數(shù)據(jù)來源是解析用戶進入網(wǎng)站時的日志以及相關(guān)屬性。需要增量記錄用戶的所有的位置(時間)、網(wǎng)絡(luò)、手機品牌、型號、相關(guān)屬性。
重合度計算因子是位置、網(wǎng)絡(luò)、手機品牌-型號、相關(guān)屬性。
算法:Jaccard Coefficient算法。
具體的計算方法:將因子去重后得到分母,而分子部分由2個ID的因子的交集獲得,得到重合度。
例如:用戶A是匿名用戶,因子去重后得到:【位置:廣東省廣州,網(wǎng)絡(luò):移動,手機品牌-型號:蘋果-12,相關(guān)屬性:攝影、二次元、漫展】,
而某個游離態(tài)one-idB的因子去重后得到:【位置:廣東省廣州、云南省昆明,網(wǎng)絡(luò):移動,手機品牌-型號:蘋果-12,相關(guān)屬性:攝影、二次元、漫展、古風、日系】,
而某個穩(wěn)定態(tài)one-idC的因子去重后得到:【位置:廣東省廣州、云南省昆明、陜西省西安,網(wǎng)絡(luò):移動,手機品牌-型號:蘋果-11,相關(guān)屬性:攝影、二次元、漫展、古風、日系】,
那么計算得到A與B的重合度是6/15,約為40.00%概率是同一個人,而A與C的重合度是5/11,約為45.45%概率是同一個人。
至少概率要達到50%及以上才將之關(guān)聯(lián)。另外,針對手機品牌-型號可增加權(quán)重,若該點沒有重合的,可直接不關(guān)聯(lián)。
六、方案的可拓展性
面對外界的改變,主要是能夠獲取的用戶的信息點的改變,我們主要去調(diào)整注冊中心的各個生態(tài)注冊id,包括:新增注冊信息點、減少注冊信息點、調(diào)整注冊信息點的優(yōu)先級。那么后面的流程將按照最新的注冊中心的信息點設(shè)置跑。同時,我們還有一個是全域的注冊信息點優(yōu)先級表,這個也是需要維護的,包括:新增注冊信息點、減少注冊信息點、調(diào)整注冊信息點的優(yōu)先級。另外,還需要維護:可用于打通的信息點。
例如:Android的OAID已經(jīng)完全無法獲得,那么我們將減少這個注冊信息點。
Android(刪除之前):
Android(刪除之后):
之后,SDK不再采集這個信息點,在初步mapping時都不會再使用這個信息點,但是注意之前已有這個信息點的不會刪除,re-mapping時會使用這個信息點,因為之前數(shù)據(jù)是有這個信息點的,有可能正是使用這個信息與其他one-id進行關(guān)聯(lián)。
如果是新增了信息點,那么這個信息點將可能參與初步mapping、re-mapping。
如果是調(diào)整了信息點的優(yōu)先級,那么不影響這個信息點參與初步mapping、re-mapping,只是改變了這個信息點在參與時的優(yōu)先級。
在修改了信息點后,還需要修改全域的信息點優(yōu)先級,以及維護可打通的信息點。
七、方案優(yōu)劣勢
1. 優(yōu)勢
- 從數(shù)據(jù)的角度,打通數(shù)據(jù)的點變多了,能被打通的數(shù)據(jù)變多了,這將有助于全面描述一個用戶,形成比較穩(wěn)固的嚴謹?shù)臄?shù)據(jù)根基,以支撐上層對于數(shù)據(jù)的使用。
- 從業(yè)務(wù)的角度,用戶因為打通之后會更加的歸攏,這將緩解沒有打通而統(tǒng)計出來的龐大的虛假的用戶數(shù),給業(yè)務(wù)以更真實的數(shù)據(jù)。另外,因為打通我們能夠知道用戶在整個公司產(chǎn)品領(lǐng)域內(nèi)的先后觸點情況,即在整個用戶生命周期內(nèi)是如何經(jīng)過一個個的公司產(chǎn)品觸點。
- 從使用的角度,數(shù)據(jù)進一步打通之后,數(shù)據(jù)根基更穩(wěn)固了,在使用的時候我們可以更加信賴底層的數(shù)據(jù)。對于單個用戶,因為數(shù)據(jù)更加地歸攏,在統(tǒng)計與打標簽等工作上,將更準確,特別是對于全域產(chǎn)品范圍的統(tǒng)計。
2. 劣勢
邏輯比較復雜,計算量比較大,特別是算法re-mapping的計算量。
參考資料
- 神策的id-mapping方案,視頻:https://school.sensorsdata.cn/liveVideo?liveId=3841
- 數(shù)瀾科技算法專家在B站關(guān)于id-mapping的視頻,全系列有4個視頻:https://www.bilibili.com/video/BV1Ei4y177cX?spm_id_from=333.999.0.0
- 《阿里巴巴云上數(shù)據(jù)中臺之道》中的id-mapping部分(one-id)
- 《華為數(shù)據(jù)之道》中的id-mapping部分
- 《標簽類目體系 面向業(yè)務(wù)的數(shù)據(jù)資產(chǎn)設(shè)計方法論》中的id-mapping部分
- https://jishuin.proginn.com/p/763bfbd75525
本文由@Bruce 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!