今日頭條:AI助力用戶推薦 (上)
眾所周知,字節(jié)跳動(dòng)旗下的產(chǎn)品,無(wú)論是今日頭條還是抖音,均是在AI的賦能下發(fā)展的如魚(yú)得水。那么,今日頭條的精準(zhǔn)推薦是基于AI的哪些技術(shù)?又是如何實(shí)踐的呢?本文筆者將推理出今日頭條的底層AI技術(shù)力量和對(duì)AI的具體應(yīng)用,共分上下兩篇以饗讀者。
方法:
基于今日頭條用戶分享的圖像、文字及用戶標(biāo)簽數(shù)據(jù),為用戶推薦潛在的好友,從而更好的為用戶做個(gè)性化推薦和精準(zhǔn)化服務(wù)。
在獲取頭條用戶分享的圖像、文字及用戶標(biāo)簽的基礎(chǔ)上,通過(guò)使用AI里深度學(xué)習(xí)的方法利用圖像、文字及用戶標(biāo)簽數(shù)據(jù)來(lái)表達(dá)用戶興趣特征?;谶@三類特征組合,通過(guò)計(jì)算用戶之間的余弦相似度來(lái)挖掘與目標(biāo)用戶興趣最相近的若干個(gè)候選用戶。
傳統(tǒng)推薦系統(tǒng)原理:
推薦系統(tǒng)最早是由Resnick和Varian于1997年提出的,通過(guò)利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購(gòu)買(mǎi)哪些商品,模擬銷(xiāo)售人員協(xié)助客戶完成購(gòu)買(mǎi)過(guò)程。
傳統(tǒng)推薦系統(tǒng)僅考慮向用戶推薦商品的相似度,或推薦相似商品的廣告等方式解決用戶的信息需求。這種推薦方式用戶需從大量的相似商品,或推薦廣告中,選擇自認(rèn)為較好的商品或服務(wù)。并且是一個(gè)非常漫長(zhǎng)的過(guò)程,且對(duì)商品或服務(wù)存在一定的信任度。
從另外一個(gè)角度分析,傳統(tǒng)推薦系統(tǒng)也只是考慮根據(jù)用戶對(duì)某類商品或服務(wù)的點(diǎn)擊及關(guān)注,向用戶推薦相似商品的方式來(lái)解決用戶的需求。
傳統(tǒng)推薦系統(tǒng)弊端:
另外,傳統(tǒng)推薦系統(tǒng)存在著冷啟問(wèn)題,如:用戶行為數(shù)據(jù)和用戶特征數(shù)據(jù)無(wú)法獲取,如無(wú)法獲取這兩類數(shù)據(jù),系統(tǒng)便無(wú)法對(duì)用戶進(jìn)行產(chǎn)品推薦。
社群化推薦系統(tǒng)的興起:
隨著社交網(wǎng)站的興起,社會(huì)化推薦系統(tǒng)逐漸開(kāi)始流行起來(lái),用戶購(gòu)買(mǎi)產(chǎn)品的方式逐漸由傳統(tǒng)的系統(tǒng)推薦轉(zhuǎn)向好友(網(wǎng)友)推薦,更多的時(shí)候是基于同類興趣群體,或好友推薦。因?yàn)橛脩纛愋洼^為近似的好友或網(wǎng)友,可能在性格愛(ài)好方面有著更多的相似性,如:教育或知識(shí)結(jié)構(gòu)的相似性、性格的相似性、工作環(huán)境的相似性、生活環(huán)境的相似性等,都會(huì)在社交網(wǎng)站上找到興趣圈或朋友圈。
社會(huì)化推薦系統(tǒng)的普及:
頭條類網(wǎng)站伴隨時(shí)間的發(fā)展,逐步演化成用戶閱讀新聞資訊內(nèi)容中必不可缺少的工具。傳統(tǒng)的推薦系統(tǒng),從此由內(nèi)容信息推薦逐漸演化為社會(huì)化關(guān)系網(wǎng)站用戶興趣信息推薦,內(nèi)容或服務(wù)信息也正演化精神層次信息需求。
如:我們?cè)陬^條上閱讀某條文章然后推薦給我們一個(gè)流行的商品或服務(wù),我們希望將購(gòu)買(mǎi)信息分享到微頭條里的每一個(gè)人,這也正是頭條產(chǎn)品社交化的重要性。
頭條將電商社交化:
傳統(tǒng)的電商不再是靠單一的賣(mài)商品或服務(wù)而存在,更多的是演化到基于社交網(wǎng)絡(luò)或微頭條的商品或服務(wù)。淘寶上的商品銷(xiāo)售也被證實(shí)有一部分來(lái)自于好友的推薦。
朋友圈或興趣圈推薦在社交網(wǎng)站的演化過(guò)程中扮演著越來(lái)越重要的角色,社交網(wǎng)站推薦從最初的用戶引流到新用戶活躍度、再到用戶興趣圈的形成及發(fā)展到現(xiàn)在的網(wǎng)絡(luò)社區(qū)構(gòu)建及用戶關(guān)系的演化,社交化推薦系統(tǒng)是幫助用戶解決信息不對(duì)稱較好的方法,也是用戶對(duì)感興趣信息獲取的一種較好途徑和過(guò)濾垃圾信息的一種重要手段。
同時(shí),社交化推薦系統(tǒng)改善了傳統(tǒng)推薦系統(tǒng)中用戶之間的關(guān)注度和信任度問(wèn)題。
頭條用戶推薦原理:
頭條用AI算法給用戶推薦內(nèi)容和商務(wù)及服務(wù),主要根據(jù)用戶在頭條上瀏覽、評(píng)價(jià)、關(guān)注、點(diǎn)贊收藏和發(fā)布的文本數(shù)據(jù)、標(biāo)簽數(shù)據(jù)和圖像數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)來(lái)構(gòu)建用戶的興趣表達(dá),通過(guò)計(jì)算目標(biāo)用戶和候選用戶之間的余弦相似度來(lái)為目標(biāo)用戶推薦相同或相似的好友,進(jìn)而為用戶推薦適合用戶的內(nèi)容和服務(wù)。
頭條綜合推薦系統(tǒng):
社會(huì)化推薦系統(tǒng)有如下5種類型:
1. 基于內(nèi)容的推薦
系統(tǒng)關(guān)鍵技術(shù)根據(jù)用戶已知的偏好、興趣等屬性或商品內(nèi)容屬性相匹配,為用戶推薦好友或感興趣商品,該推薦技術(shù)已經(jīng)用運(yùn)用于很多領(lǐng)域。
2. 協(xié)同過(guò)濾推薦
協(xié)同過(guò)濾推薦技術(shù)主要通過(guò)系統(tǒng)識(shí)別擁有相同或相似興趣和偏好的用戶,并為用戶進(jìn)行推薦。
3. 基于人口統(tǒng)計(jì)的推薦
一般是將用戶按其個(gè)人屬性(如:性別,年齡,教育背景,居住地,語(yǔ)言等)進(jìn)行分類,將以上結(jié)果做為推薦的基礎(chǔ),對(duì)用戶進(jìn)行興趣匹配及廣告推薦。
4. 基于領(lǐng)域知識(shí)的推薦
一般是基于某個(gè)領(lǐng)域的圖推論或是本體構(gòu)建來(lái)對(duì)用戶的需求或興趣偏好進(jìn)行匹配。
5. 混合推薦
將上述的各種推薦系統(tǒng)利用技術(shù)手段組合起來(lái),充分發(fā)揮各推薦系統(tǒng)的優(yōu)點(diǎn),規(guī)避其缺點(diǎn)。在一定程度上提高了推薦效果自從推薦系統(tǒng)問(wèn)世,就運(yùn)用到各種領(lǐng)域——如:用戶、書(shū)籍、購(gòu)物、新聞、美食等;
例如:頭條通過(guò)利用基于內(nèi)容的推薦技術(shù)設(shè)計(jì)了一個(gè)購(gòu)物推薦系統(tǒng),采用詞袋模型構(gòu)建用戶的興趣偏好,根據(jù)用戶對(duì)商品的歷史購(gòu)買(mǎi)或?yàn)g覽行為信息,建立用戶的特征向量,然后根據(jù)用戶的特征向量和商品的內(nèi)容的匹配程度為用戶推薦新的商品。
6. 頭條用AI技術(shù)做好友推薦系統(tǒng)
好友推薦的目的是:讓用戶更便捷的找到熟悉或興趣相似的好友,使得用戶的社交網(wǎng)絡(luò)結(jié)構(gòu)也更加真實(shí)可信。
用戶找到好友的途徑主要通過(guò)好友發(fā)布的各種信息,如:評(píng)論信息、用戶標(biāo)簽、圖像等。
目前,頭條社交網(wǎng)絡(luò)好友推薦用到了文本或圖像信息:
通過(guò)對(duì)用戶微頭條、社交關(guān)系和地理位置三類數(shù)據(jù)進(jìn)行融合來(lái)為用戶做好友推薦;
運(yùn)用微頭條的標(biāo)簽與社會(huì)標(biāo)注系統(tǒng)中的標(biāo)簽區(qū)別,通過(guò)利用向量空間模型使頭條中用戶產(chǎn)生的標(biāo)簽向量描述用戶興趣,然后將頭條用戶的興趣發(fā)現(xiàn)問(wèn)題看做是對(duì)用戶進(jìn)行標(biāo)簽的推薦,例如用TagRank方法,通過(guò)計(jì)算標(biāo)簽的重要度對(duì)標(biāo)簽重新排序?qū)崿F(xiàn)對(duì)頭條用戶的興趣推薦。
還運(yùn)用了一種基于人臉圖像的好友推薦系統(tǒng),該圖像推薦系統(tǒng)根據(jù)用戶選擇比較感興趣或關(guān)注的人臉圖像對(duì)用戶進(jìn)行好友推薦,這種基于好友的推薦系統(tǒng)主要是提取人臉顏色特征、結(jié)構(gòu)特征和紋理特征來(lái)建立用戶的外貌偏好對(duì)用戶進(jìn)行了好友推薦。
7. 用戶興趣組合推薦產(chǎn)品架構(gòu)
用戶推薦流程如下圖:
今日頭條已經(jīng)充分利用用戶發(fā)布的圖像、文章和用戶標(biāo)簽數(shù)據(jù)等信息,找到了較為有效的用戶興趣表示方法。換言之,用戶興趣識(shí)別結(jié)果是基于圖像、文章和用戶標(biāo)簽融合的。
因此,首要任務(wù)是獲取頭條用戶發(fā)布的圖像、文章及用戶興趣標(biāo)簽數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理;然后,提取圖像語(yǔ)義特征、文章語(yǔ)義特征和用戶標(biāo)簽特征,并通過(guò)以上三種特征的組合,得到多模態(tài)的用戶興趣表達(dá);最后,通過(guò)計(jì)算不同用戶之間興趣表達(dá)的余弦相似度,選擇最相似的Top-N個(gè)用戶推薦給目標(biāo)用戶。
用戶興趣推薦表示和推薦方法:
用戶興趣推薦是為今日頭條中的某個(gè)用戶u∈ U 推薦與其興趣相似的用戶集合U’? U 。
本文筆者LineLian將用戶興趣推薦轉(zhuǎn)化為一個(gè)用戶興趣表示問(wèn)題——即首先將任意用戶u∈ U 轉(zhuǎn)化為興趣空間中的高維特征向量 v ,然后在高維特征空間中根據(jù)興趣向量的余弦距離獲得與用戶 u 的興趣特征向量最接近的 k 個(gè)特征向量,這些特征向量對(duì)應(yīng)的用戶則為推薦用戶集合U’。
基于余弦相似度的用戶興趣推薦主要有兩個(gè)核心步驟:
- 構(gòu)建特征空間;
- 在特征空間中計(jì)算用戶興趣特征向量的相似度。
以下分別對(duì)這兩個(gè)步驟進(jìn)行詳細(xì)說(shuō)明:
(1) 構(gòu)建特征空間本質(zhì)上是尋找某個(gè)特征映射函數(shù) f ,使得該函數(shù)能夠?qū)⒂脩?u 映射為高維興趣特征空間中的點(diǎn)v ——即 f ( u)→v ,v 也可以稱為用戶 u 在興趣特征空間中的特征向量。
考慮到今日頭條中存在三種不同模態(tài)的信息能夠表征用戶興趣——即頭條圖像、文章和用戶標(biāo)簽,因此得出一個(gè)頭條基于多模數(shù)據(jù)的用戶興趣表征方法。
記用戶 u=[Iimg, Itext, Itag] ,其中 Iimg、Itext、Itag分別對(duì)應(yīng)圖像、文章和用戶標(biāo)簽三種信息。
- 對(duì)于圖像信息 Iimg,LineLian在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的ResNet模型提取圖像中包含的語(yǔ)義作為圖像特征向量——即 vimg=fResNet(Iimg) ;
- 對(duì)于文本信息 Itext,LineLian利用在百度百科上預(yù)訓(xùn)練好的Word2Vec模型,通過(guò)計(jì)算文章中的詞向量平均值作為文本特征向量——即 vtext=Avg(fWord2Vec( I)text) ;
- 對(duì)于用戶標(biāo)簽信息 Itag,可以利用向量空間模型將標(biāo)簽信息表示為特征向量,即 vtag=fVSM(Itag) 。
最終,用戶的興趣特征向量可以表示為多模向量的組合:
v=fResNet+Word2Vec+VSM( I)img, Itext, Itag=[vimg, vtext, vtag]
(2) 在特征空間中,計(jì)算用戶興趣特征向量相似度,實(shí)際上就是:選擇合適的數(shù)學(xué)計(jì)算方法估計(jì)特征向量之間的相似度??梢酝ㄟ^(guò)計(jì)算目標(biāo)用戶與候選用戶集多模興趣,表達(dá)的余弦相似度表示用戶間的相似程度,然后根據(jù)用戶之間的相似度對(duì)候選用戶集進(jìn)行排序,最后將TopN個(gè)候選用戶推薦給目標(biāo)用戶。
余弦相似度的計(jì)算方法如下:
sim( v)i,vj=cos( v)i,vj=vi? vj|v|i×|v|j=∑aN( v)ia? vja∑aN( v)ia2× ∑aN( v)ja2
為了更加精細(xì)的研究各個(gè)模態(tài)特征權(quán)重對(duì)整個(gè)推薦方法的貢獻(xiàn),可以對(duì)各個(gè)模態(tài)表達(dá)的相似度進(jìn)行加權(quán)如公式如下:
coefficient=∑i∈ Csim(i)×ratio(i)
其中,coefficient為推薦系數(shù),C={文章,標(biāo)簽,圖像},sim(i)分別表示用戶之間的文本、標(biāo)簽和圖像相似度,ration(i)分別表示用戶之間的文本、標(biāo)簽和圖像相似度綜合推薦時(shí)所占的比重??梢岳镁W(wǎng)格搜索的方法來(lái)探究最佳的權(quán)重 ratioi,其中 ratioi∈ [0,1] ,網(wǎng)格搜索的步長(zhǎng)為0.1。
總結(jié):
作為智能數(shù)據(jù)推薦,或者AI產(chǎn)品經(jīng)理,在今日頭條用戶關(guān)系推薦系統(tǒng)中要明白:
- 推薦系統(tǒng)的歷史成因。
- 推薦模型算法是包含多種其中有Bow /Word2vec/Nesnet等。
- 數(shù)據(jù)包含文本、圖像、標(biāo)簽、社交網(wǎng)絡(luò)數(shù)據(jù)、微數(shù)據(jù)等是是一種糧食來(lái)支撐AI神經(jīng)網(wǎng)絡(luò)的搭建和運(yùn)算。
- AI產(chǎn)品經(jīng)理在今日頭條AI助力用戶推薦上篇中明白產(chǎn)品做得是協(xié)調(diào)好數(shù)據(jù)、配合算法建模求解、優(yōu)化。
如果你想系統(tǒng)化入門(mén)AI產(chǎn)品經(jīng)理,掌握AI產(chǎn)品經(jīng)理的落地工作方法,戳這里>http://996.pm/7bjab
#專欄作家#
連詩(shī)路,公眾號(hào):LineLian。人人都是產(chǎn)品經(jīng)理專欄作家,《產(chǎn)品進(jìn)化論:AI+時(shí)代產(chǎn)品經(jīng)理的思維方法》一書(shū)作者,前阿里產(chǎn)品專家,希望與創(chuàng)業(yè)者多多交流。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議
花了5K大洋爭(zhēng)取到機(jī)會(huì)跟LineLian老師交流AI產(chǎn)品三視圖 正視 側(cè)視和 俯視來(lái)看人工智能產(chǎn)品,受益良多,老師不僅是AI技術(shù)和產(chǎn)品設(shè)計(jì)和算法邏輯清晰,更多的是指導(dǎo)我們做產(chǎn)品的一種綜合素質(zhì)極高的模式
……