用戶人群精推基礎算法
編輯導語:隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的APP開始進行精準化的算法推薦,算法的應用越來越普及,但算法有利也有弊。近期,國家便對算法進行了整治,但綜合來說,算法的精準推送利大于弊。本文就幾種基礎的算法進行了總結(jié)與思考,與大家一同探討。
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的App開始進行精準化的推薦。隨之而來的則是千人千面,算法的應用以及維度的分析越來越精確。是好事也非好事,雖然增加了沉浸式的體驗,但在娛樂化的平臺則物極必反,自發(fā)用戶高質(zhì)量的內(nèi)容減少,隨之而來的則是無趣及用戶體驗的疲勞。
但是綜合來講精準推薦利大于弊,它是很好的增加用戶粘性的一種方式,今天只是說幾種最基礎的算法,對于精準推薦的利弊,在接下來的文章會進行詳細的分析。以下僅個人觀點,不喜勿噴。謝謝大家。
我們先以標簽為例來進行分析。
一、算法的基礎
Apriori算法用于挖掘出數(shù)據(jù)關聯(lián)規(guī)則的基礎算法,它用來找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合,找出這些集合的模式有助于我們做一些決策。
比如在常見的超市購物數(shù)據(jù)集,或者電商的網(wǎng)購數(shù)據(jù)集中,如果我們找到了頻繁出現(xiàn)的數(shù)據(jù)集,那么對于超市,我們可以優(yōu)化產(chǎn)品的位置擺放,對于電商,我們可以優(yōu)化商品所在的倉庫位置,達到節(jié)約成本,增加經(jīng)濟效益的目的。
同樣一個用戶總瀏覽相同的形式的內(nèi)容,那么你就更加精確發(fā)現(xiàn)其興趣點,及其其他相關產(chǎn)品進行推薦。
Aprior算法是一個非常經(jīng)典的挖掘算法,很多算法都是基于Aprior算法而產(chǎn)生的,包括FP-Tree、GSP、CBA等。這些算法利用了Aprior算法的思想,但是對算法做了改進。生命的真諦不就是在于不斷進步?
二、FP Tree算法
這個算法是我在剛進行算法精推時的首選,結(jié)構(gòu)比較簡單,適用于剛剛搭建的階段。
這里對FP Tree算法流程做一個歸納。FP Tree算法包括以下幾步:
1)首先掃描數(shù)據(jù),得到所有頻繁1項集的的計數(shù)。然后刪除支持度低于閾值的項,將1項頻繁集放入項頭表,并按照支持度降序排列。項頭表支持度必須大于百分之20才可進行記錄其中。
2)其次將原始數(shù)據(jù)剔除支持度低于百分之20的數(shù)值,重新得到數(shù)據(jù)集。
3)讀入排序后的數(shù)據(jù)集,插入FP樹,插入時按照排序后的順序,插入FP樹中,排序靠前的節(jié)點是祖先節(jié)點,而靠后的是子孫節(jié)點。如果有共用的祖先,則對應的公用祖先節(jié)點計數(shù)加1。插入后,如果有新節(jié)點出現(xiàn),則項頭表對應的節(jié)點會通過節(jié)點鏈表鏈接上新節(jié)點。直到所有的數(shù)據(jù)都插入到FP樹后,F(xiàn)P樹的建立完成。
4)從項頭表的底部項依次向上找到項頭表項對應的條件模式基遞。從條件模式基遞歸挖掘得到項頭表項的頻繁項集。
5)如果不限制頻繁項集的項數(shù),則返回步驟4所有的頻繁項集,否則只返回滿足項數(shù)要求的頻繁項集。
這樣有相同的因素出現(xiàn)時,我們可以簡單的理解為其相關性,這些相關性我們可以把標簽當作一個值來進行系統(tǒng)的初期分配。
同樣還有其他的算法GSP,?CBA、CBA算法+關聯(lián)Apriori算法、
機器學習-規(guī)則與關聯(lián)規(guī)則模型Apriori、FP-Growth等有待發(fā)掘。
三、其他形式
當然算法不能只關注標簽的應用。同樣以某短視頻為例。其搜索的算法還包含,當下熱點、用戶的瀏覽記錄、關注的事物、以及標簽、搜索熱詞等等。這些均需算法進行推動才可以做到千人千面,達到商業(yè)價值。把商業(yè)價值做到無感又大的流量曝光才是王道。
這是我前端時間對標簽化算法的思考進行一個記錄、能力不高請多擔待。如有大神還是蠻樂意去學習的。
作者:苗小豐
本文由 @汪仔5338 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!