推送系統從0到1(七):推送用戶畫像建立
通過前六篇文章的介紹,大家應該對推送系統的整體運作流程有清晰的了解。本篇開始將會從數據和運營層面對推送進行更深入的介紹,力求把推送的效果最大化,也和大家一起把推送系統研究到極致。
想要通過推送達成運營目的,首要的是要用戶點開推送消息,進到目標頁面才有機會實現運營目的。所以推送點擊率,成為許多運營者觀察的數據指標之一。
用戶對推送內容是否感興趣,很大程度影響著點擊率的高低。近年來,各種信息平臺/電商網站通過精準推薦、消息聚合和消息分發,聲稱基于大數據算法實現個性化的推薦,從而達到內容點開率大幅提升。
精準+大數據算法似乎成為當下的潮流,但是對于很多產品經理來說,機器學習、大數據算法聽起來就難以實現。
其實個性化推薦并沒有想象的那么困難,本篇將會給大家介紹個性化精準推送的第一步:建立用戶畫像,當然我們主要從推送出發,在推薦算法上不會有太深入的挖掘。
為什么建立用戶畫像
其實要做精準推送同樣可以使用多種推薦算法,例如:基于用戶協同推薦、基于內容協同的推薦等其他的推薦方式,但是以上方式多是基于相似進行推薦,運用范圍多為單一的功能,難以實現全網功能之間的聯動。而構建用戶畫像,不僅可以滿足根據分析用戶進行推薦,更可以運用在全網所有功能上。
建立用戶畫像確實是一個一勞多得的事情,不僅可以運用于精準推送、精準推薦、精準營銷,更可以作為網站的用戶屬性分析,用戶行為分析,商業化轉化分析等。同時網站共用一套用戶畫像,可以對用戶有統一的認知,更可以在各個運用渠道對數據進行補充和矯正。
大致的理念如下圖:
從圖上可以看出,用戶畫像的運用途徑非常廣,但那些都是應用層面的事情,我們在此主要分析從用戶畫像構建到實現精準推送的過程。下面開始為大家介紹如何構建網站的用戶畫像庫。
用戶畫像構建思路
在部分構建用戶畫像介紹文章中分為四個層級,第四層為預測模型,但在精準推送中較少運用到預測的需求,而且預測算法會是更高階的算法,需要大量的數據演算,本次不做討論,所以暫且分為三層進行構建。
從圖中可以看到,用戶畫像的第一層主要是原始數據庫,此數據庫主要囊括后續分析所需要的所有原始數據。也是通過大量數據的分析和處理,后面能提煉成用戶的畫像得以運用。
故在這一層的關鍵詞是:大量、數據。而第二層級是根據第一層的原始數據通過算法計算、提煉、規劃成可以組成用戶畫像的一系列通用標簽,而這類標簽的存在形式類似于矩陣或者多個類別的集合。
在業務需要時,該類標簽從數量和維度都可以增加以滿足業務需求。所以第二層的關鍵詞是:通用、標簽。
而對于第三層,我們可以通過對標簽的聚合、提煉、建模等方式構成用戶的多個“面”,并運用于多個場景。例如:說小明在聽音樂時的畫像是搖滾、年輕、流行、活潑;而在學習時的畫像是認真、專心、投入、經濟學等。
通過用戶不同的角度實際運用于各類業務需求,實現精準化。所以在第三層的關鍵詞是:聚合、運用。
建立原始數據庫
從第一層的原始數據庫搭建開始介紹,這一層我們需要獲得盡量多的原始數據,因后面的所有的應用場景都依托于原始數據的計算、分析、建模,所以在原始數據庫搭建時需要考慮更全面,當然原始數據與數據存儲、采集難度和成本都密切相關。
以下圖為主要數據維度,大家根據實際情況進行抉擇。
一般來說,例如:電商類網站。對用戶的分析更為深入仔細,會需要分析出用戶的購買力,所以可能會在用戶信息部分下功夫。雖然在用戶信息泛濫的今天,依然不提倡大家通過非正常渠道獲取用戶信息,即便這些數據的商業價值很高。
而第二類數據即用戶行為數據是必選項,用戶行為數據可以更好的分析用戶需求,更容易獲取用戶的興趣內容。所以大部分的推薦算法,都會基于用戶行為作為原始數據源。而用戶環境信息及其他的數據,可以作為數據分析的重要參考資料,這個可視實際情況進行采集和存儲。
下面仔細介紹如何采集用戶行為數據,采集的目的多用于推算出用戶的喜好度以及分析用戶的轉化行為。通過用戶行為推算出用戶的標簽,實質是利用用戶感興趣的內容賦予標簽化的過程。
主要思路如下圖:
這個方法的核心思路就是把用戶在網站內的每一個操作和操作的對象、操作時間,均記錄下來,形成一個用戶行為表,這樣用戶行為的原始數據就構建完成了。
具體操作如下:
把用戶瀏覽/收聽/觀看的每一個內容、瀏覽時間、與該內容的交互(點擊、滑動)、在該內容的關鍵指標(收藏、分享、商業化行為等)均記錄下來,那么每個用戶都會有一個用戶行為記錄表,而記錄的維度可以是數值,可以是“是or否”,也可以是時間,要視具體的需求而定。
如下圖:是我在實際設計過程中定義的用戶行為數據存儲格式,主要反映用戶在什么時間看了什么,并做了什么事情。
根據這個表格形成原始數據,當然我前面也說到了,這只是原始數據中行為數據的部分,在設計時可以根據實際情況拓展數據表。
通過記錄用戶行為的這個原始數據,我們可以獲得這些信息:用戶的訪問習慣(頻率、時間、時長)、用戶感興趣的內容、用戶對內容的感興趣程度。
其實光是這些,我們已經大致能推算出用戶基本喜好度了。但是這個方法有個缺陷,既用戶未產生足夠多的行為時,我們無法獲取其行為信息,自然也無法進行后續分析。此時就可以運用前面介紹到的通過用戶的信息、用戶環境等其他數據作為基礎,通過用戶協同算法,找到與該用戶相似的同類用戶喜好的內容。
建立用戶標簽庫
根據上面獲得的用戶行為原始數據,我們得到了一張龐大的行為記錄表。但是想要把這個表格的內容運用起來,我們需要把用戶行為更為具象化,也就是需要把用戶畫像構建起來。
構成用戶畫像可以是一段話描述,可以是各種屬性的合集,也是直觀解釋的標簽。根據上面的介紹,用戶畫像可以運用在用戶的分析、商業化模式的分析、精準和個性化推薦系統中。而本篇主要介紹精準推送,故只選取可以具象化展示畫像的用戶標簽。
其實用戶標簽并不等同于用戶畫像,只是用戶標簽是用戶畫像直觀的呈現,并且是比較好且常用的運用方式。
構建用戶標簽庫其實比較簡單,因為我們在上述采集用戶行為過程中,已經把用戶喜好的內容采集下來了,所以基礎標簽并可以直接運用內容的標簽。也就是通過用戶喜歡的內容給用戶貼標簽。
(1)內容標簽化
首先要做的事情就是把內容標簽化,根據內容定性的制定一系列標簽,這些標簽可以是描述性標簽,也可以是具象的標簽,更可以是數字或者數值范圍。這些內容的標簽需要具有通用性,即適用于你所采集的用戶瀏覽的所有內容。
例如:是電商類網站,則這一些列標簽可以是商品類型、商品價格范圍、商品產地、商品品牌、商品特點等等。如果是房產類網站,則可以是房子的區域、價格、面積、格局、形態等等。
在完成這一步操作之后,此時用戶行為表中的內容均可以標簽化了,相當于用戶行為表記錄的是用戶對一組標簽的感興趣程度。
在對內容標簽化的時候,需要注意,標簽的值需要有統一的范圍,不然在后期將無法進行使用和比較。例如說:上圖表格中,“區域”這個標簽的值范圍只能是某個行政區,而每個房源信息都有這個區域值的標簽,切勿出現“區域”這個標簽值是范圍外的內容,如:小區名等情況。
以上圖為例,房源ID-1001的標簽為:福田區、6萬單價、2房、40-50坪、……
(2)用戶標簽化
第二步要做的就是把內容的標簽賦予用戶,這個過程就是需要研究用戶對內容的喜好程度,用戶喜歡的內容即當作用戶喜好的標簽。
在用戶行為記錄表中,我們所記下用戶的行為在此時就發揮出重要的作用了。用戶的瀏覽(時長/頻率)、點擊、分享/收藏/關注、其他商業化或關鍵信息均不同程度的代表的用戶對這個內容的喜好程度。
此時我們可以用過給這些行為賦予權重分值,通過分值的計算得出用戶喜好的一組標簽。按照行為的重要程度賦予分值沒有規定的值推薦給大家,大家可以通過不斷的嘗試和調整,找到最適合自己算法的權重值。同時內容是具有時效性或者與時間的關系比較重要,也是可以把時間作為權重參數之一。以下圖是舉例說明為行為賦值的過程。
完成對關鍵行為賦予權重分值后,即可開始計算,首先我們把用戶瀏覽(收聽、觀看)的內容全部按照上面內容標簽化的方式打散成標簽,并且把用戶行為表中的關鍵行為轉化成對應分值。
這樣可以得到下表:
把標簽與分值關聯進行求和計算,即每個標簽的值都可以得到一個分值之和,例如說:商品A的標簽“商品產地”的值有“福建、廣東、、云南、浙江、河北”等,通過分值計算,找到分值最高的值作為該用戶此標簽的值。
如:計算出來“福建”的分值最高,即該用戶喜歡“商品產地是福建”的商品。
通過以上計算可以實現每個系列標簽獲得分值最高的值,此時根據自身的需求,可以取最高的值作為標簽值,當然也可以從分值從高到低排序,取前幾個成為標簽數組。通過上面計算,那么一個用戶將獲得一組/多組標簽及對應的值。
如下圖:
建立用戶畫像庫
我們通過上述方式獲得了用戶的一組組標簽,但是對用戶的剖析并不夠立體。用戶畫像的是個立體標簽庫的集合,此時就需要我們把標簽組構成像矩陣、集合一樣立體。再把用戶通過各類維度進行組合和排布,形成用戶畫像。
這是一個用戶的畫像在數據表中的形態,然而網站千萬用戶均有自己的畫像庫,所以在構建用戶畫像的時候,需要考慮數據存儲的問題。這個大量的數據計算將會持續對數據的存和使用造成壓力,所以在構建時一定要與研發工程師討論。
用戶畫像的橫向和縱向都具有拓展性,隨著基礎數據的獲取越來越多,可以拓展的維度也越來越多。同時通過標簽的組合、聚合和拓展,可以形成二級標簽、三級標簽等高階標簽,并運用于不同場景。
下面將為大家舉例介紹標簽多變的玩法。
應用層的用戶標簽
來到應用層,我們就可以充分的利用標簽發揮各種用途。首先我們可以通過標簽篩選出用戶,特定的幾個標簽即可圈定特定范圍的用戶。
例如說:我可以在用戶池中篩選出“年輕、單身、用蘋果手機、喜歡xxx”的用戶,可以對這類用戶進行有針對性的推薦和營銷。同時除了圈定用戶,我們還可以對標簽進行組合。如:標簽A=標簽a+標簽b-標簽c。
以上面基礎用戶畫像圖中信息舉例:首購用戶=年齡22~35歲+購房格局為2房+購房單價低于X萬-有小孩+….等等,當然只是舉例說明,通過標簽之間的組合疊加或排除,可以形成更高階的標簽并運用于各種應用層。
例如:電商網站經常會通過各種信息來判斷用戶的購買力、喜歡的商品,購物習慣和購物頻次。這些都是可以根據基礎標簽的聚合計算出來的,不同的組合方式讓標簽更豐富,更貼近實際運用場景,但是也不會干擾原始標簽庫和用戶原始數據的存儲和使用。
總結
本篇主要為大家介紹了精準推送的第一步,構建用戶畫像:
- 構建用戶畫像可以用于精準推薦、精準推送、精準營銷、數據分析等;
- 把用戶畫像構建分成三層,分別是原始數據庫、畫像標簽庫、畫像應用層;
- 原始數據的獲取可以是用戶信息、用戶行為、用戶環境等相關信息;
- 通過分析用戶行為,可以針對用戶對內容的喜好度,使用內容給用戶標簽化;
- 用戶畫像是可以在橫向和縱向進行拓展的龐大標簽組;
- 在應用層可以通過標簽的組合、聚合、拓展形成各類高級標簽并靈活使用。
在下一篇將會給大家介紹通過一些相似度算法,計算用戶最感興趣的內容,從而實現精準的個性化推送,盡請期待!
相關閱讀
本文由 @番茄那只羊 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Pexels,基于CC0協議
學習了,非常棒!
這個是針對于C端的,還是如果加上B端的就更好了
您好,有點沒看懂,在“用戶標簽化”舉例的表里: 標簽系列一指的是一系列行為指標的集合么?包含“瀏覽時長,關注,收藏,點贊。。”然后因為提前定義了集合每個操作對應的數值所以進行了求和。那對應的ABCD又指的是什么呢,?(是指對標簽的定義么,比如“非常喜歡”“一般”“不感興趣”)?? 期待回答
標簽系列一指的是一個標簽類別,比如以人為例,那標簽系列一就是家鄉,那ABCD就是不同的省這樣,然后瀏覽時長啥的是用戶行為,用來加總反應用戶的偏好,就一個標簽下江西省的行為加總是5,浙江省的是7,那么標簽一得出的偏好就是浙江省。
哇塞,大寫的優秀~ ??
怎么不支持打賞 ??
打賞功能今天突然不見了~
強烈推薦!全文最全推送系統知識型分享~ ??
感謝支持~~~ ??
期待更新
感謝支持哦~ ??
感謝作者分享,這篇很實用。請問有沒有深入講解用戶畫像的書籍推薦?
用戶畫像和推薦算法:可以看《推薦系統實踐》;我的下一篇文章也會提到這本書。
蟹蟹
這文章寫的好呀
感謝支持哦~ ??
想問下這是什么書啊,能否推薦下,去細讀下 ??
1.推送系列文章:是我自己通過實戰總結出來的經驗,個人觀點僅供參考
2.用戶畫像和推薦算法:可以看《推薦系統實踐》;我的下一篇文章也會提到這本書。 ??