深度丨從零搭建推薦體系: 推薦體系和評(píng)估體系(下)
本文闡述整個(gè)推薦體系從0搭建的全流程,也是最近以來一直深入研究的成果展現(xiàn),因原文太長(zhǎng),故此切分成3部分發(fā)送,每天發(fā)送1篇,全文結(jié)構(gòu)為:上篇:第零章概述,第一章標(biāo)簽體系搭建;中篇:第三章用戶體系,第四章項(xiàng)目體系,下篇:第五章推薦體系,第六章評(píng)估體系,第七章全文總結(jié),第八章參考資料。
內(nèi)容相對(duì)全而深入,希望有推薦體系搭建意愿的平臺(tái)或者產(chǎn)品經(jīng)理,能夠給予一定的幫助就好。另,求工作。
深度丨從零搭建推薦體系:概述及標(biāo)簽體系搭建(上)
深度丨從零搭建推薦體系:用戶體系、項(xiàng)目體系和推薦體系(中)
5. 推薦體系
5.1 推薦方法
很明顯,推薦方法和推薦算法是整個(gè)推薦系統(tǒng)中最核心、最關(guān)鍵的部分,很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。目前,主要的推薦方法包括:基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識(shí)推薦和組合推薦。詳細(xì)的方法介紹也放置在附錄4當(dāng)中以供參考,下面梳理出各方法的優(yōu)劣:
在除去場(chǎng)景外,也要結(jié)合性能因素來進(jìn)行考量,不同數(shù)據(jù)量級(jí)的情況下不同方法配合不同算法產(chǎn)生的性能壓力也是不同的,需要結(jié)合公司自身承受情況進(jìn)行選擇??梢钥闯?,以上方法均有不同程度的優(yōu)勢(shì)和劣勢(shì),所以目前主流推薦方法也幾乎均采用混合推薦的方法,利用兩種或多種方法之間的優(yōu)勢(shì),規(guī)避劣勢(shì)從而達(dá)成盡量完美的方法,這其中也一定是基于不同的使用場(chǎng)景和產(chǎn)品具體情況具體分析了。
5.2 推薦算法
這是整個(gè)推薦系統(tǒng)的核心區(qū)域,之前做的許多的工作其實(shí)都是在給推薦算法提供所謂的相關(guān)系數(shù)條件,當(dāng)系數(shù)越多的時(shí)候,計(jì)算出的結(jié)果一定是更準(zhǔn)確的。
從數(shù)學(xué)角度來說是計(jì)算用戶與內(nèi)容之間的相似度和距離,相似度越高,距離越近的,自然越容易達(dá)成轉(zhuǎn)化,所以常見算法也就是向量里面的夾角余弦算法、皮爾遜系數(shù),從距離來說會(huì)有歐幾里得空間距離算法、曼哈頓距離算法等等,包括還有許多新進(jìn)研究的算法例如基于圖摘要和內(nèi)容相似混合聚類的推薦算法GCCR。
簡(jiǎn)單介紹下GCCR,該算法可以極端稀疏的數(shù)據(jù)集上具有較高的準(zhǔn)確度,同時(shí)在冷啟動(dòng)的場(chǎng)景下能夠提供多樣性的推薦結(jié)果,從而避免推薦結(jié)果收斂過快的問題。
首先,選取用戶節(jié)點(diǎn)中關(guān)注數(shù)量較高的節(jié)點(diǎn),從而抽取出稀疏數(shù)據(jù)中的一個(gè)密集子集,利用圖摘要的方法,對(duì)此密集子集形成關(guān)注興趣相似的核心聚類。
然后,提取種子聚類的內(nèi)容特征和整個(gè)數(shù)據(jù)集中其它用戶的內(nèi)容特征,基于內(nèi)容相似度對(duì)整個(gè)用戶群進(jìn)行聚類,最后將聚類結(jié)果用于主題推薦。通過對(duì)密集數(shù)據(jù)子集和全數(shù)據(jù)集的兩階段聚類過程,提高對(duì)極端稀疏數(shù)據(jù)集的聚類效果。同時(shí),由于圖摘要聚類中的類模糊性,可以在對(duì)用戶興趣聚類的過程中保留一定的多樣性,從而避免冷啟動(dòng)時(shí)收斂過快。
所以當(dāng)前算法非常的多,結(jié)合不同場(chǎng)景和產(chǎn)品選擇最優(yōu)算法,才是最好的,在附錄5當(dāng)中也列舉了常規(guī)的一些距離算法以供參考。
5.3 運(yùn)用思路
當(dāng)運(yùn)用于實(shí)際情況時(shí),一定要結(jié)合產(chǎn)品自身情況考量,例如產(chǎn)品冷啟動(dòng)期間數(shù)據(jù)過少,用哪種方法,在數(shù)據(jù)量級(jí)充分上來的時(shí)候,減輕計(jì)算壓力應(yīng)該用哪種,長(zhǎng)期需要修正的時(shí)候需要用哪種,都是需要我們綜合考量的,下面也將自己梳理的整體推薦思路進(jìn)行分享。
千人一面
在產(chǎn)品上線初期,無論使用人數(shù),還是內(nèi)容,都相對(duì)較少,還未有足夠數(shù)據(jù)支撐用戶相關(guān)行為以及趨勢(shì),所以在此階段,以收集用戶行為、屬性為最高目的,先達(dá)成最粗略的推薦行為,也就是判斷哪些用戶是疑似某一細(xì)化方向的目標(biāo)用戶,僅此即可。應(yīng)該分為兩個(gè)方向來考慮這個(gè)問題,新用戶和老用戶,對(duì)于新用戶只能從環(huán)境熟悉和可能的物理屬性進(jìn)行判斷,老用戶可以全方位多維度判斷,詳見第二章,這里不多做敘述。
所以在當(dāng)前階段,主要目標(biāo)就是收集用戶行為,一切行為均不能遺漏,這也就是前文所說的,先圍繞每個(gè)人建立一套粗略喜好標(biāo)簽?zāi)P?,此階段希望的是實(shí)時(shí)調(diào)整,根據(jù)用戶使用頻次和動(dòng)作來決定,一定要快,因?yàn)閯倓偵暇€,用戶隨時(shí)有可能離開。在用戶隨手點(diǎn)擊內(nèi)容以后回到首頁(yè)的時(shí)候發(fā)現(xiàn)已經(jīng)有較為感興趣的內(nèi)容了,那種好感度是不一樣的。
千人十面
在這個(gè)階段,已然有之前的用戶行為的基礎(chǔ)數(shù)據(jù)作為支持了,所以我們首先要做的就是將用戶分組,將有相似喜好的用戶找到,方法就是用最經(jīng)典的向量算法里的夾角余弦,每個(gè)用戶直接都要分別計(jì)算,不過好再現(xiàn)階段用戶量級(jí)不多,可以大量計(jì)算。計(jì)算依據(jù)也就是根據(jù)之前用戶的相關(guān)操作行為,給用戶打上的相關(guān)標(biāo)簽,按照標(biāo)簽相似度來給用戶進(jìn)行聚類。
所以在聚類完成后,一定會(huì)獲得離別內(nèi)某種同樣的特征值,所以這也就完成了第二階段的工作,每個(gè)類別內(nèi)的用戶進(jìn)行相同的內(nèi)容展示。
而且我們已經(jīng)知道了喜愛不同項(xiàng)目之間的用戶特征屬性,這時(shí)候再進(jìn)來的用戶,我們也就可以相應(yīng)的放在疑似庫(kù)里了,等到收集到相應(yīng)的新用戶行為,也就能確定這個(gè)新用戶的相關(guān)喜好方向了,成本會(huì)減小很多。所以在這個(gè)階段,要盡量收集全,時(shí)間可以控制在2周左右,為下一步更加精準(zhǔn)的推薦做準(zhǔn)備。
千人百面
從這里開始,伴隨著的一定是大批量計(jì)算。所以這里我們就是通過每個(gè)人的行為,猜測(cè)每個(gè)人的未知喜好,進(jìn)行最大化的推薦匹配,我們需要設(shè)定動(dòng)作權(quán)重系數(shù),例如:有效打開=5, 分享=4, 收藏=3, 互動(dòng)=2 , 其它跳轉(zhuǎn)=1, 無效打開=-2 , 點(diǎn)×=-5。
設(shè)定完畢后,我們可以看到當(dāng)用戶A、B、C在第二步時(shí),在同一類組,看到的內(nèi)容均相同,但是行為可能完全不同。我們就能得到以下的近似值,設(shè)任意三篇內(nèi)容為x、y、z軸,那么對(duì)于用戶A來說,那就是(3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。用夾角余弦=向量點(diǎn)積/ (向量長(zhǎng)度的叉積),所以 A君B君夾角的余弦是0.81,A君C君夾角的余弦是-0.97。
根據(jù)余弦定則,等于1是0°,就是完全重合,-1是180°完全相反,所以越靠近1兩者越相似,所以AB相似,所以看AB用戶之間的差異,比如A看了x的新聞,B只看了y的新聞,就可以進(jìn)行交叉推薦了。
所以當(dāng)內(nèi)容(x、y、z)越多時(shí),計(jì)算越準(zhǔn)確,直接的結(jié)果那就是由于數(shù)據(jù)量的不斷增大以及用戶量級(jí)的不斷增大,每一次計(jì)算也是不現(xiàn)實(shí)的,用戶也多,次數(shù)就多,內(nèi)容也多,點(diǎn)就多,所以考慮到這些,我們?cè)诘谒牟竭_(dá)成最終的目的。
千人千面
我們通過之前的數(shù)據(jù)積累,大量收集用戶之前的相關(guān)行為,在這里要通過協(xié)同過濾矩陣及拆解來解決問題,矩陣拆解的核心其實(shí)是為了得到潛在因子,所以我們需要怎么做。
將內(nèi)容與用戶的行為結(jié)合,變?yōu)檫@一張表格,能相應(yīng)減少許多計(jì)算量同時(shí)達(dá)到不錯(cuò)的效果,如下表:
設(shè)定有效打開=5, 分享=4, 收藏=3, 互動(dòng)=2 , 其它跳轉(zhuǎn)=1, 無效打開=-2 , 點(diǎn)×=-5。
將表格利用協(xié)同過濾中的矩陣拆解進(jìn)行計(jì)算,我們就可以得到如下兩張表:
這兩個(gè)矩陣相乘就可以得到估計(jì)的得分矩陣:
將用戶已經(jīng)看過的內(nèi)容剔除后,選擇分?jǐn)?shù)最高內(nèi)容的推薦給用戶即可(紅體字)。所以在這里,我們其實(shí)已經(jīng)就完全可以精準(zhǔn)化的推薦了,結(jié)果與計(jì)算量達(dá)到了相應(yīng)的平衡。
已經(jīng)到這一步了,這時(shí)候每個(gè)人的展示信息已然不盡相同,所以要結(jié)合人的之前打開行為,一定要結(jié)合時(shí)間、場(chǎng)景、內(nèi)容載體考慮之后的推薦,并且適當(dāng)加入長(zhǎng)尾內(nèi)容,用戶感興趣的大方向,但是細(xì)化方向沒有臨幸過的。
5.4 抽樣
抽樣技術(shù)在數(shù)據(jù)挖掘中主要用在兩個(gè)地方:一是在數(shù)據(jù)預(yù)處理和后處理階段,為了避免計(jì)算規(guī)模過大;二是在數(shù)據(jù)挖掘階段,通常會(huì)對(duì)訓(xùn)練出來的模型進(jìn)行交叉驗(yàn)證,需要抽樣將所有樣本劃分為訓(xùn)練集和測(cè)試集。
通常所說的抽樣都是隨機(jī)抽樣,主要用于所有樣本點(diǎn)都可以認(rèn)為沒有區(qū)分時(shí)適用。還有一種分層抽樣,在樣本需要顯著的分為不同的子集時(shí),針對(duì)每個(gè)子集分別進(jìn)行抽樣。
5.5 維度規(guī)約
當(dāng)樣本的維度增加的時(shí)候,待學(xué)習(xí)的模型的復(fù)雜性是隨著維度呈指數(shù)增長(zhǎng)的,這種現(xiàn)象通常稱為“維災(zāi)難”。這也就意味著,如果我們想在高維空間中學(xué)到和在低維空間中精度一樣高的模型,所需要的樣本數(shù)是呈指數(shù)增長(zhǎng)的。
維度規(guī)約通常是用來處理維災(zāi)難問題的。通常維度規(guī)約有兩種思路,一是從高維數(shù)據(jù)中選出最能表達(dá)數(shù)據(jù)的一些維度,并用這些維度來代表數(shù)據(jù),稱為特征選擇;另一種是將高維數(shù)據(jù)通過某種技巧變換映射到低維空間,稱為特征構(gòu)造。
主成分分析是最主要的一種特征選擇方式,它通過特征分解能夠得到每一個(gè)維度對(duì)于整個(gè)數(shù)據(jù)的最小均方差的貢獻(xiàn)程度,從而定量判斷每一維對(duì)于數(shù)據(jù)所包含信息的貢獻(xiàn)度。然后保留最主要的一些維度,拋棄一些不顯著的維度,對(duì)數(shù)據(jù)進(jìn)行降維。
奇異值分解是主要的特征構(gòu)造方式,它通過矩陣分解的方式,將數(shù)據(jù)從高維空間映射到低維空間,對(duì)數(shù)據(jù)進(jìn)行降維。
5.6 推薦展示
展示階段,我們應(yīng)該以用戶為唯一維度來進(jìn)行思考,從第三章也能看出分為外因和內(nèi)因,通過外因確定大方向,通過本次的操作行為確定內(nèi)因,兩者結(jié)合,時(shí)時(shí)修正,達(dá)到貼合用戶的目的。所以并不一定是用戶歷史行為某類型內(nèi)容打開較多、較高就要通通放在前面,在自身使用時(shí)候還有所謂的厭倦,與驚喜內(nèi)容相結(jié)合,并且是先弱后強(qiáng)還是先強(qiáng)后弱還是兩頭強(qiáng)中間弱,都是我們應(yīng)該通過用戶時(shí)時(shí)改變的,強(qiáng)弱為通過歷史行為分析出的內(nèi)容對(duì)用戶吸引力的量詞。
5.7 信息繭房
當(dāng)前所有的做法都是在不惜代價(jià)的盡量精準(zhǔn)的完成推送,轉(zhuǎn)化最大化,可是這樣真的好嗎?不禁從另一個(gè)角度思考,如果用戶收到的都是符合喜好的內(nèi)容,就是最好的選擇了嗎?其實(shí)不然,這則很有可能陷入更危險(xiǎn)境地——信息繭房。
美國(guó)學(xué)者凱斯·R·桑斯坦指出信息繭房以“個(gè)人日?qǐng)?bào)”的形式呈現(xiàn):“伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)達(dá)、信息的劇增,人們可以隨意選擇想關(guān)注的話題,可依據(jù)喜好定制報(bào)紙、雜志,每個(gè)人都可為自己量身打造一份“個(gè)人日?qǐng)?bào)”。當(dāng)個(gè)人被禁錮在自我建構(gòu)的信息脈絡(luò)中,生活必然變得程序化、定式化,信息繭房就像是“回音室”,人們?cè)O(shè)定了話題、觀點(diǎn),聽到的是自己的回音,每個(gè)人將都閉塞在自己的空間之內(nèi)?!?/p>
在面對(duì)個(gè)性化新聞推薦如何走出“信息繭房”,遏制其產(chǎn)生的“回音壁”傾向,桑斯坦提出應(yīng)該構(gòu)建網(wǎng)絡(luò)的“人行道”模式。他認(rèn)為無論使物理空間的街道、公園、還是報(bào)紙、廣播、電視等大眾媒體,都屬于公共領(lǐng)域,都應(yīng)該像“人行道”一樣,可能會(huì)遇到種種非計(jì)劃和不想要的情景,不同的人群會(huì)體認(rèn)到新鮮體驗(yàn);那些未經(jīng)實(shí)現(xiàn)篩選而遭遇的情狀,會(huì)引發(fā)人們的言行互動(dòng)。
按照桑斯坦的理論,媒體應(yīng)該添加“公共論壇”,通過提供用戶“非計(jì)劃”和“不想要”的信息,讓他們有機(jī)會(huì)接觸到不同領(lǐng)域的信息。當(dāng)前新聞?lì)惪蛻舳顺R?guī)做法一般都是添加“熱點(diǎn)”類的頻道欄目,并且在每個(gè)不同的頻道下的信息流中用帶“熱”字的紅色小標(biāo)提示熱點(diǎn)信息以示區(qū)別。讓用戶接觸到不同階層的觀點(diǎn),不同類別的信息。
但是在個(gè)性化新聞推薦方面,應(yīng)該弱化用戶相關(guān)性推薦的原則,拓寬用戶的關(guān)注領(lǐng)域。個(gè)性化推薦除了基于用戶自身的基本信息,還有就是基于協(xié)同過濾的,是根據(jù)社交關(guān)系中的好友的興趣進(jìn)行關(guān)聯(lián)推薦。這種推薦原則會(huì)使用戶聚集一批與自身在興趣、文化等方面相類似的朋友,關(guān)注對(duì)象的同質(zhì)化會(huì)讓用戶接收的信息也趨向于同質(zhì)化。
所以如何根據(jù)當(dāng)前的興趣建立模型,分析依據(jù)當(dāng)前興趣推測(cè)之后的興趣偏移點(diǎn),甚至偏移速度,在適時(shí)的時(shí)候完成長(zhǎng)尾化內(nèi)容推薦,可能才是未來推薦系統(tǒng)真正的價(jià)值。
5.8 小結(jié)總結(jié)
隨著算法出爐之后,是需要經(jīng)過長(zhǎng)期的修正以及實(shí)時(shí)調(diào)整的,在這里面的樣例,依然將用戶分了組處理。我相信像頭條、網(wǎng)易新聞這種體量的APP來說,應(yīng)該是以每個(gè)人就是一個(gè)維度,每個(gè)人為單位計(jì)算和文章內(nèi)容的相似度,才是終極目的。因?yàn)槿擞凶约旱挠脩魳?biāo)簽體系,內(nèi)容同樣也有,先確定能影響用戶權(quán)重的最大標(biāo)簽做粗略篩選,之后精細(xì)化每篇內(nèi)容和每個(gè)人進(jìn)行向量計(jì)算逐一得到結(jié)果,逐一進(jìn)行推薦。
在每天夠后一定要有相應(yīng)的review,評(píng)估之前策略的效果,結(jié)合瀏覽時(shí)間、打開比例、互動(dòng)反饋、卸載情況等綜合考慮策略的優(yōu)劣,快速調(diào)整,下面就要相應(yīng)介紹評(píng)估體系的建立。
6. 評(píng)估體系
我們應(yīng)該獲得的是根據(jù)用戶對(duì)推薦的顯性或隱性反饋改進(jìn)、優(yōu)化原有用戶模型,以確保模型能夠匹配用戶的最新偏好,從而提高模型精度和推薦質(zhì)量。
6.1 評(píng)估維度
精確度的衡量最典型的算法是平均絕對(duì)誤差(MAE)、平均平方誤差(MSE)以及標(biāo)準(zhǔn)平均誤差(NMSE)。平均絕對(duì)誤差是所有單個(gè)觀測(cè)值與算術(shù)平均值的偏差的絕對(duì)值的平均,用來衡量一組數(shù)自身的離散程度。有兩個(gè)優(yōu)點(diǎn),第一是計(jì)算方法簡(jiǎn)單,易于理解,第二是每個(gè)系統(tǒng)的平均絕對(duì)誤差唯一,從而能夠區(qū)分兩個(gè)系統(tǒng)平均絕對(duì)誤差的差異,能更好地反映預(yù)測(cè)值誤差的實(shí)際情況。在有些系統(tǒng)中,用戶只在意推薦列表前端的預(yù)測(cè)誤差,而對(duì)系統(tǒng)的整體誤差并不是很在意,這時(shí)也不適合采用預(yù)測(cè)準(zhǔn)確度進(jìn)行評(píng)估,后兩種更適合用分類準(zhǔn)確度度量系統(tǒng)的推薦質(zhì)量,來衡量觀測(cè)值同真值之間的偏差,說明樣本的離散程度,可作為衡量測(cè)量精度的一種數(shù)值指標(biāo)。
集合準(zhǔn)確率、召回率和精確率也可以用來衡量推薦的準(zhǔn)確度,準(zhǔn)確率表示用戶對(duì)一個(gè)被推薦內(nèi)容感興趣的可能性,召回率定義為推薦列表中用戶喜歡的內(nèi)容與系統(tǒng)中用戶喜歡的所有內(nèi)容的比率,精確率定義為推薦列表中用戶瀏覽的內(nèi)容與全部推薦內(nèi)容的比率。
其中還有像多樣性(平均海明距離)、分類準(zhǔn)確度(ROC曲線)、排序準(zhǔn)確度(平均排序分)、以及半衰期(半衰參數(shù))的因素,之前也描述過用戶的興趣還好是在隨著時(shí)間的不斷推移而增強(qiáng)或減弱的。除此之外與用戶直接相關(guān)的比如驚喜度、意外程度、覆蓋率、新鮮感、用戶滿意度等指標(biāo)仍可說明。
這些評(píng)估的獲得手段一般從用戶反饋、數(shù)據(jù)量化、長(zhǎng)期觀察和體驗(yàn)數(shù)據(jù)來獲得,最終均要轉(zhuǎn)化為量化指標(biāo)來進(jìn)行評(píng)估,例如使用時(shí)長(zhǎng)、使用深度、打開比例等等,之后再進(jìn)行拆解,某一指標(biāo)與哪些行為相關(guān),進(jìn)行相關(guān)的行為追查,直接定位。從而達(dá)到評(píng)估體系的核心意義,到底是好還是不好,如果不好問題在哪兒,定位后進(jìn)行修正。這部分產(chǎn)品同學(xué)只要大概了解有什么方法,即可,具體的原理有算法團(tuán)隊(duì)來做,要都搞清楚太難了,已經(jīng)涉及太多的數(shù)學(xué)內(nèi)容,有興趣的課余時(shí)間自己學(xué)習(xí)即可。
6.2 相關(guān)修正
目前采用的用戶模型更新技術(shù)主要可以分成三類:一類是從用戶反饋中抽取新信息添加到用戶模型中的信息增補(bǔ)技術(shù);一類是根據(jù)生態(tài)系統(tǒng)的優(yōu)勝劣汰法則來優(yōu)化用戶模型的自然進(jìn)化技術(shù);還有一類是通過調(diào)整網(wǎng)絡(luò)連接權(quán)重來自適應(yīng)更新的神經(jīng)網(wǎng)絡(luò)技術(shù)。
信息增補(bǔ)技術(shù)
這是目前為止使用最多的一類用戶模型更新技術(shù)。它又包括了直接的信息增補(bǔ)以及涉及權(quán)重調(diào)整的信息增補(bǔ)兩種類型。前者將獲取的用戶對(duì)推薦的反饋信息直接添加到用戶模型中,典型系統(tǒng)如GroupLens、Ringo、Video Recommender、PC Findert、WEBSELL等。這種更新只是簡(jiǎn)單地添加了新信息,并沒有刪除或削減無效舊信息在用戶模型中的作用,因此很可能導(dǎo)致推薦階段假陽(yáng)性錯(cuò)誤的出現(xiàn),即將用戶不喜歡的項(xiàng)目推薦給了用戶。
而且隨時(shí)間的推移,模型規(guī)模不斷擴(kuò)大,這帶來了存儲(chǔ)空間占用和模型維護(hù)問題。相比之下,采用后者作為更新技術(shù)的系統(tǒng),如LetiziatL、Personal Web Watcher、Webmate、Krakatoa Chronicle和WebCobral ,不僅將用戶新的反饋信息(如新關(guān)鍵詞)增加到用戶模型中,而且還會(huì)調(diào)整用戶模型中新、舊信息的權(quán)重,使反映用戶最新偏好的新信息在推薦中起到更為重要的作用,同時(shí)無效的舊信息將隨其權(quán)重的不斷減小而最終從模型中被刪除。因此,含權(quán)重調(diào)整的信息增補(bǔ)技術(shù)從一定程度上緩解了直接信息填補(bǔ)存在的問題,但這類技術(shù)的性能很容易受到新信息選擇方法和被增加的新信息數(shù)量的影響。
遺傳算法
遺傳算法是一種基于自然選擇和遺傳機(jī)理的迭代搜索優(yōu)化技術(shù),由適應(yīng)度函數(shù)、染色體種群以及選擇、交叉和變異三個(gè)主要操作算子組成。每一代種群包含了若干個(gè)個(gè)體(被稱為染色體)。依據(jù)每個(gè)個(gè)體的適應(yīng)度函數(shù)值,種群經(jīng)過選擇,交叉和變異操作一代代向更優(yōu)良、更適應(yīng)環(huán)境的方向進(jìn)化,從而逐漸逼近最優(yōu)解。使用遺傳算法作為模型更新技術(shù)的系統(tǒng)。
通常將用戶模型編碼成一個(gè)染色體并隨機(jī)產(chǎn)生其他染色體作為初始種群。當(dāng)初始種群進(jìn)化迭代到滿足終止條件時(shí),解碼適應(yīng)度最高的染色體來取代系統(tǒng)目前的剛戶模型即可實(shí)現(xiàn)更新。還有一部分系統(tǒng)也使用遺傳算法作為模型的更新機(jī)制,但這部分系統(tǒng)通過對(duì)信息收集代理而不是用戶模型本身的優(yōu)勝劣汰來間接實(shí)現(xiàn)模型更新。當(dāng)用戶興趣發(fā)生變化時(shí),通過遺傳進(jìn)化,低性能的舊代理被消除,能直接滿足用戶新必趣或?qū)τ脩艏捌渌碛杏玫拇淼玫椒毖堋?/p>
基于遺傳算法的更新技術(shù)從多個(gè)初始點(diǎn)(群體)而不是單點(diǎn)出發(fā)持續(xù)搜索可能的用戶模型構(gòu)成空間,因此是一種高效且能夠最優(yōu)化用戶模型的更新算法。但是基于遺傳算法的更新技術(shù),其適應(yīng)度函數(shù)和染色體編碼方法要求針對(duì)每個(gè)問題專門設(shè)計(jì)。
神經(jīng)網(wǎng)絡(luò)技術(shù)
神經(jīng)網(wǎng)絡(luò)是一種自適應(yīng)的更新技術(shù)。當(dāng)用戶偏好隨時(shí)問發(fā)生變化時(shí),神經(jīng)網(wǎng)絡(luò)將自適應(yīng)地調(diào)整網(wǎng)絡(luò)連接權(quán)重,更新網(wǎng)絡(luò)輸出的識(shí)別結(jié)果來跟蹤這種變化。有的更新只在原有類別的基礎(chǔ)上對(duì)新舊偏好信息進(jìn)行分類調(diào)整,有的則建立新的識(shí)別類,并剪除代表過時(shí)知識(shí)的識(shí)別類來對(duì)應(yīng)于用戶新興趣的興起和舊興趣的衰亡。在這種情況下,神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生了變化,網(wǎng)絡(luò)可能需要被重新訓(xùn)練來識(shí)別和記憶變化后的用戶偏好。由于神經(jīng)網(wǎng)絡(luò)的更新依賴于前期神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),因此通常只有以神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)技術(shù)的系統(tǒng)才會(huì)用其作為更新技術(shù)。
與模型學(xué)習(xí)技術(shù)相比,用戶模型更新技術(shù)更關(guān)牲just-in-time型的學(xué)習(xí)而不是模型的建立和執(zhí)行,因此算法需要具有更強(qiáng)的學(xué)習(xí)效率和對(duì)動(dòng)態(tài)變化的適應(yīng)能力。但是也有相應(yīng)問題,目前的模型更新技術(shù)通常只按照固定頻率對(duì)模型進(jìn)行更新,這使得系統(tǒng)無法及時(shí)跟蹤和捕捉用戶興趣的變化,從而造成了推薦結(jié)果和用戶實(shí)際興趣的差異。
6.3 小結(jié)總結(jié)
本節(jié)闡述評(píng)估體系的建立,列舉相關(guān)維度和相關(guān)動(dòng)作等,并且列舉相關(guān)的修正手段和簡(jiǎn)單介紹,以供在長(zhǎng)期不斷修正模型和算法,達(dá)到更好的效果,更全面優(yōu)質(zhì)的服務(wù)用戶。
7. 全文總結(jié)
整篇文章闡述了搭建推薦體系的全流程,從思路表述、標(biāo)簽體系、用戶體系、項(xiàng)目體系、推薦環(huán)節(jié)和評(píng)估體系的建立和相關(guān)細(xì)節(jié)及當(dāng)前的模式,技術(shù)手段等。盡量完整和周密的闡述了全部流程以供梳理和參考,在正文后還有附錄部分,闡述詳細(xì)的算法和摘錄的相關(guān)方法以共參考。
凱文凱利在《失控》一書中提出“共同進(jìn)化”的觀點(diǎn):
進(jìn)化就是不斷適應(yīng)環(huán)境以滿足自身的需求。共同進(jìn)化是更全面的進(jìn)化觀點(diǎn),就是不斷適應(yīng)環(huán)境以滿足彼此的需求。媒介通過競(jìng)爭(zhēng)不斷進(jìn)化適應(yīng)環(huán)境,同時(shí)也提供了更好的服務(wù)更多的選擇給用戶,滿足了用戶日益增長(zhǎng)的需求。
在當(dāng)前,即使使用推薦系統(tǒng),也并沒有根本上解決人們?nèi)绾斡行Й@得信息的難題。所以仍可以嘗試探索更加智能的信息獲取模式,以及更加自然的人機(jī)交互接口。
猶如“大白”一樣的貼心,處處想在用戶前面,在合適的時(shí)候?qū)⑾肟吹男畔⒄故境鰜?,隨情緒而變,畢竟人類心理活動(dòng)是十分微妙的,盡量通過規(guī)律摸清人類的喜好遷移,洞察微妙的行為變化,是未來努力的方向。
8. 參考資料
- 《zouxy09》——部分機(jī)器學(xué)習(xí)資料來源;
- 《LeftNotEasy – Wangda Tan》——同上;
- 《深入探討 | 其實(shí)你并不懂產(chǎn)品標(biāo)簽機(jī)制》——標(biāo)簽部分部分思路來源;
- 《淺談矩陣分解在推薦系統(tǒng)中的應(yīng)用》——向量拆解部分知識(shí)來源;
- 《網(wǎng)易云音樂的歌單推薦算法是怎樣的?》——當(dāng)前主流推薦算法來源;
- 《百分點(diǎn)研發(fā)總監(jiān)蘇海波:大數(shù)據(jù)用戶畫像的方法及營(yíng)銷實(shí)踐》——用戶畫像部分價(jià)值;
- 省略一百余篇推薦、算法、心理學(xué)、行為學(xué)專業(yè)論文,實(shí)在太多,不便復(fù)制上來,表示統(tǒng)一感謝。
附錄5常見推薦算法
下篇,完,全文完,可以加我微信所要全文PDF,排版相對(duì)會(huì)更好,謝謝觀看。
相關(guān)閱讀:
深度丨從零搭建推薦體系:概述及標(biāo)簽體系搭建(上)
深度丨從零搭建推薦體系:用戶體系、項(xiàng)目體系和推薦體系(中)
深度丨從零搭建推薦體系: 推薦體系和評(píng)估體系(下)
個(gè)性化推薦技術(shù)|產(chǎn)品經(jīng)理和產(chǎn)品運(yùn)營(yíng)的必修課
在談推薦系統(tǒng)之前,請(qǐng)先避免這4個(gè)問題
#專欄作家#
吳邢一夫(微信號(hào)mystic326531548),人人都是產(chǎn)品經(jīng)理專欄作家。3年產(chǎn)品經(jīng)理工作經(jīng)驗(yàn),需求、用戶、數(shù)據(jù)有深入研究。歡迎交流想法,拒絕無意義添加好友。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
千人百面 中的A與B的COS值,我算的是0.63333
給大佬跪了