中文字幕精品亚洲无线码二区,黄色网页免费观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

如何設(shè)計(jì)一款百萬日活的推薦系統(tǒng)（1）—大智慧RES從0到1實(shí)戰(zhàn)

智子觀測

2020-08-12

0 評論 4719 瀏覽 26 收藏

9 分鐘

編輯導(dǎo)語：百萬日活的推薦系統(tǒng)是很多人可望而不可求的，其系統(tǒng)的設(shè)計(jì)也并不簡單，那么該如何設(shè)計(jì)這樣一款推薦系統(tǒng)呢？本文作者基于自己的實(shí)際搭建經(jīng)驗(yàn)，為我們分享了他的產(chǎn)品設(shè)計(jì)歷程，希望能夠幫助大家在系統(tǒng)搭建的過程中少走一些彎路。

前言

作者簡介：本人3年金融行業(yè)產(chǎn)品經(jīng)驗(yàn)，主攻python數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。目前就職于上海大智慧，主要負(fù)責(zé)大數(shù)據(jù)平臺、用戶畫像、推薦搜索、知識圖譜等方向。曾參與過ontrade數(shù)字金融交易所、區(qū)塊鏈錢包、仙人掌股票證券投顧平臺等多個(gè)項(xiàng)目。獨(dú)自建立了datagrowth.cn數(shù)據(jù)驅(qū)動(dòng)增長自媒體網(wǎng)站。

本系列專欄主要講述本人從0到1搭建RES推薦系統(tǒng)的一些經(jīng)驗(yàn)，記錄下產(chǎn)品設(shè)計(jì)的心路歷程，以此激勵(lì)自己不斷探索新知識。

與市面上泛泛而談的博客不同的是，本文主要從產(chǎn)品的角度，結(jié)合行業(yè)特性，剖析踩過的坑。

一、產(chǎn)品架構(gòu)

任何一款再簡單的產(chǎn)品，都需要商業(yè)模式和產(chǎn)品架構(gòu)的設(shè)計(jì)。架構(gòu)不需要多么復(fù)雜、花哨，深入理解行業(yè)背景，適合產(chǎn)品規(guī)劃才是最重要。

用visio畫的一個(gè)比較滿意的產(chǎn)品圖，基本能把要表達(dá)的思路全部畫了出來。

不同于前任設(shè)計(jì)的基于規(guī)則的1.0版本，這次重構(gòu)主要在于搭建一個(gè)可擴(kuò)展的體系，同時(shí)引入數(shù)據(jù)驅(qū)動(dòng)、算法賦能，而不是拍腦袋決定。

從產(chǎn)品的角度看推薦，應(yīng)屬于業(yè)務(wù)應(yīng)用層。

一切的一切，都是基于底層埋點(diǎn)到分析流程、大數(shù)據(jù)平臺、用戶標(biāo)簽畫像、自然語言處理等基礎(chǔ)服務(wù)搭建較為完善的前提下開展。

推薦的整體流程分為召回、過濾、排序（因?yàn)閿?shù)據(jù)量不是非常大，所以不需要粗排、精排）、重排序，這次主要講召回層最易理解但最重要的熱門召回。

二、整體流程

流程首先考慮閉環(huán)：從app用戶行為產(chǎn)生、大數(shù)據(jù)實(shí)時(shí)統(tǒng)計(jì)，到產(chǎn)生熱門召回、過濾、排序后，形成熱門推薦服務(wù)；又通過用戶行為來評估推薦效果【產(chǎn)品指標(biāo)，如PV/UV、人均閱讀時(shí)長、轉(zhuǎn)化率等】。

根據(jù)整體流程，發(fā)現(xiàn)核心在于熱門值的計(jì)算方案。

新聞入到資訊的es庫中，系統(tǒng)賦予一個(gè)初始熱度值；進(jìn)入推薦列表后，用戶的點(diǎn)擊、分享、點(diǎn)贊等交互行為可以提升新聞的熱度值。由于新聞?dòng)休^強(qiáng)的時(shí)效性，新聞發(fā)布后，熱度非線性衰減。

資訊熱度分=（初始熱度值+用戶交互產(chǎn)生熱度值-低質(zhì)量懲罰分（暫無））*時(shí)間衰減系數(shù)。

1. 初始熱度值

1）不同類別的文章給與不同的權(quán)重

根據(jù)用戶數(shù)據(jù)反饋，選擇其中某些熱門主題類型的文章，同時(shí)綜合考慮高質(zhì)量的類目，給與較高的權(quán)重。

類別初始熱門值：

2）人工構(gòu)建熱門詞庫

新媒體運(yùn)營的專家是最懂行業(yè)，最懂當(dāng)前熱點(diǎn)的了，引入人工規(guī)則，維護(hù)一張熱門詞庫。

對文章進(jìn)行提取關(guān)鍵字，進(jìn)行匹配，根據(jù)匹配程度適當(dāng)提升熱門權(quán)重。提取關(guān)鍵字的算法也很簡單，利用textrank，彌補(bǔ)tf-idf無法提取上下文關(guān)系的劣勢，取共現(xiàn)詞topN。

def get_keywords(self,conntent):
key_words1 = jieba.analyse.extract_tags(sentence=conntent,topK=50,withWeight=True,allowPOS=[‘n’,’v’,’f’])
key_words2 = jieba.analyse.textrank(sentence=conntent,topK=50,withWeight=True,allowPOS=[‘n’,’f’,’v’])
key_words1 = dict(key_words1)
key_words2 = dict(key_words2)
df1 = pd.DataFrame([key_words1]).T
df2 = pd.DataFrame([key_words2]).T
#取兩者共現(xiàn)詞作為關(guān)鍵字，取內(nèi)連接
df = pd.merge(df1,df2,how=’inner’,left_index=True,right_index=True).head(10)
#取tf-idf算法的權(quán)重作為真實(shí)權(quán)重
df=df.drop(df.columns[1], axis = 1)
#重設(shè)索引
df.reset_index(inplace=True,drop=False)
df.columns=[‘feature’,’weight’]
print(df)
return df

作為關(guān)鍵詞，當(dāng)然前置工作有去除停用詞，后置工作有同義詞歸并等等，所以NLP的底層基礎(chǔ)能力很重要。

3）自動(dòng)發(fā)現(xiàn)熱詞

若某一段時(shí)間，某一些文章的點(diǎn)擊/搜素?cái)?shù)量劇增，排除置頂?shù)冗\(yùn)營干預(yù)后，就應(yīng)該考慮到可能出現(xiàn)了熱門詞。這種可以通過算法自動(dòng)捕捉：算法思路也很簡單，通過聚類，提取共性主題的關(guān)鍵字。

2. 交互熱度值

取前M小時(shí)用戶的不同行為賦予不同的分?jǐn)?shù)，如【具體分值根據(jù)數(shù)據(jù)表現(xiàn)配置】：

幾個(gè)核心的點(diǎn)：

評論：無法單一的根據(jù)內(nèi)容得出用戶的偏好。需要對內(nèi)容做正負(fù)面分析。
閱讀時(shí)長：過短的閱讀時(shí)長，可能是負(fù)面反饋。這里由于找不到好的擬合函數(shù)，就簡單做了分段函數(shù)，正常來說應(yīng)該是基于預(yù)估閱讀時(shí)長做一個(gè)正態(tài)分布。