如何從海量特征中選取用戶的關鍵畫像特征?
編輯導讀:每個在互聯網工作的人,對“用戶畫像”這個詞熟悉得不能再熟悉。用好用戶畫像,能夠幫助我們專注于對用戶最重要的事情,有針對性地設計和決策。本文將圍繞用戶畫像的關鍵特征提取展開分析討論,希望對你有幫助。
“用戶關鍵特征的提取,是用戶畫像中比較常見的一個應用場景,但又比較棘手的難題?!?/strong>
什么是用戶的關鍵特征?如何對用戶的關鍵特征進行提取?今天和大家一起探討一下。
一、什么是關鍵特征?
首先,什么是用戶的關鍵特征呢?先舉個例子吧。
某個商場中的服裝店,每天的客流中有70%是女性,有30%是男性。既然一大半的訪客都是女性了,那么我們是不是可以說該服裝店的訪客的關鍵特征是【女性】呢?某種意義上,可以這樣說,但某種意義上,又不是。
什么情況下不是呢?莫急,請聽我繼續完善這個場景。
剛才提到的是這個服裝店的訪客??墒悄?,這個商場的訪客中有80%是女性,只有20%是男性。這么一比,這個服裝店的關鍵特征還是【女性】嗎?
看來,關鍵特征也可以是個相對的概念。
再舉個例子,比如某個公司中有1000員工,其中999名員工都是本科,只有一名員工是博士,那這名博士員工的典型特征,是不是可以是【博士】?
總結一下,用戶的特征,可以有千千萬。但所謂用戶的關鍵特征,就是該用戶(或者該用戶群體)有顯著特點的特征。
二、關鍵特征的分類
上面通過例子簡單介紹了一下用戶的關鍵特征,從用戶類別及特征類別的角度,我們可以將關鍵特征有以下分類。
1. 單個用戶的關鍵特征
對于單個用戶而言,關鍵特征其實只有一種,那就是個體特征。上面舉了博士的例子,這里就不贅述了。
強調一下,單用戶的關鍵特征一定是需要參照物(即對比人群)的,且對比人群是群體,而非個體。不然1個人和1個人進行比較,有啥關鍵特征可言呢?
2. 群體用戶的關鍵特征
對于群體用戶,其實有兩類關鍵特征:一類是絕對特征,一類是相對特征。
所謂絕對特征,只需要看該群體的特征分布即可,是不需要進行對比的。例如上面服裝店的例子,如果看絕對特征,女性訪客占比70%,那么就可以下結論:該服裝店的性別特征是女性,但要強調這只是絕對的情況下。
所謂相對特征,就是強調了對比。例如上面服裝店的訪客在商場訪客的比較之下,男性其實是相對多的。相對特征又分了兩類:
- 正向特征:意思是該特征和對比人群比,明顯偏高
- 逆向特征:這個意思恰恰相反,是和對比人群比,明顯偏少。
為啥絕對特征沒有逆向的細分呢?因為絕對特征的逆向特征是不可窮舉的……比如這個服裝店的訪客,0%的人是科學家,0%的人是無業人士,0%的人是高收入群體……這種標簽是窮舉不完的,從絕對值上失去了分析意義。但對于對比標簽,是有意義的。
從很多情況之下,相對特征的應用場景更廣泛,也更科學一些。
三、關鍵特征的識別
上面講了很多不同類型的關鍵特征,那如何將單用戶或者用戶群體的關鍵特征進行識別呢?
首先明確一點,關鍵特征的識別,首先需要有特征池。所謂特征池,可以理解成標簽范圍。比如選定【用戶地域】、【用戶年齡】、【用戶購買偏好】……等200個標簽作為特征池。開放式的特征池是不切實際的。特征池的選擇可以基于業務需求來選。
1. 單用戶的關鍵特征識別
其實可以用這個特征在總體人群中的占比來判斷。
比如上面的例子,【學歷】標簽特征中,只有0.1%的人是博士,那么這0.1%的博士從個體上講,理論上都可以將【博士】標簽作為他們的個體特征。
用心的你一定會問,這是99.9%對比0.1%,那如果是90%對比10%呢?如果是60%對比40%呢?如果是多個取值呢?
是的,這里在具體的產品落地上,涉及到閾值的設置、多值標簽的處理等許多詳細邏輯。這里不詳細展開了,歡迎讀者發表自己的想法哈!
2. 群體用戶的關鍵特征
關于群體的關鍵特征,其中有個很重要的概念需要提一下:TGI。
直接截圖吧……
重點是這個公式:TGI指數?= [目標群體中具有某一特征的群體所占比例/總體中具有相同特征的群體所占比例]*標準數100。
TGI是用來識別哪些特征是突出特征的重要方法。我們上面提到的正向特征和逆向特征,就可以用TGI進行排序,正排逆排即可。
四、關鍵特征的應用
說了這么多關鍵特征的內容,那到底有啥應用場景呢?
其實最最主要的應用,應該就是用于人群的畫像了。市面上大部分的用戶畫像,是這樣的:
什么意思呢?其實就是事先固化好了要畫像的維度,例如【性別】啦、【年齡】啦等,頂多支持用戶做個配置,可以選擇要畫像的維度。通常也不會超過幾十個的范圍(因為選擇過多,產品的可行性會很差)。
預置畫像維度,帶來最大的一個問題就是,有可能錯過典型特征。比如一個用戶群體,可能按照TGI計算下來,最突出的特征是用戶的支付方式是信用卡居多,而這種比較小眾的畫像維度,很有可能就不在預置的范圍中,這會錯失很多業務機會。
而通過先確定特征池,后根據不同的邏輯方法確定用戶特征,會極大降低此類風險。也是更科學的做法。
當然,在實際落地過程中,也有很多困難。比如說,上面提到的,個體標簽如果是多取值怎么辦?閾值怎么設置合理?比如相對特征中,如果分母特別小導致TGI巨高怎么處理?等等。這些問題都是需要在實踐中不斷解決的。
今天的分享主要是這些,歡迎大家一起交流。
本文由 @冬至 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
- 目前還沒評論,等你發揮!