欧美亚洲综合成人a∨在线,日产精品久久久久久久性色

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

深度丨從零搭建推薦體系：推薦體系和評(píng)估體系（下）

丶追殺那只熊

2016-09-24

2 評(píng)論 36997 瀏覽 211 收藏

31 分鐘

本文闡述整個(gè)推薦體系從0搭建的全流程，也是最近以來一直深入研究的成果展現(xiàn)，因原文太長(zhǎng)，故此切分成3部分發(fā)送，每天發(fā)送1篇，全文結(jié)構(gòu)為：上篇：第零章概述，第一章標(biāo)簽體系搭建；中篇：第三章用戶體系，第四章項(xiàng)目體系，下篇：第五章推薦體系，第六章評(píng)估體系，第七章全文總結(jié)，第八章參考資料。

內(nèi)容相對(duì)全而深入，希望有推薦體系搭建意愿的平臺(tái)或者產(chǎn)品經(jīng)理，能夠給予一定的幫助就好。另，求工作。

深度丨從零搭建推薦體系：概述及標(biāo)簽體系搭建（上）

深度丨從零搭建推薦體系：用戶體系、項(xiàng)目體系和推薦體系（中）

5. 推薦體系

5.1　推薦方法

很明顯，推薦方法和推薦算法是整個(gè)推薦系統(tǒng)中最核心、最關(guān)鍵的部分，很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。目前，主要的推薦方法包括：基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識(shí)推薦和組合推薦。詳細(xì)的方法介紹也放置在附錄4當(dāng)中以供參考，下面梳理出各方法的優(yōu)劣：

在除去場(chǎng)景外，也要結(jié)合性能因素來進(jìn)行考量，不同數(shù)據(jù)量級(jí)的情況下不同方法配合不同算法產(chǎn)生的性能壓力也是不同的，需要結(jié)合公司自身承受情況進(jìn)行選擇?？梢钥闯?，以上方法均有不同程度的優(yōu)勢(shì)和劣勢(shì)，所以目前主流推薦方法也幾乎均采用混合推薦的方法，利用兩種或多種方法之間的優(yōu)勢(shì)，規(guī)避劣勢(shì)從而達(dá)成盡量完美的方法，這其中也一定是基于不同的使用場(chǎng)景和產(chǎn)品具體情況具體分析了。

5.2　推薦算法

這是整個(gè)推薦系統(tǒng)的核心區(qū)域，之前做的許多的工作其實(shí)都是在給推薦算法提供所謂的相關(guān)系數(shù)條件，當(dāng)系數(shù)越多的時(shí)候，計(jì)算出的結(jié)果一定是更準(zhǔn)確的。

從數(shù)學(xué)角度來說是計(jì)算用戶與內(nèi)容之間的相似度和距離，相似度越高，距離越近的，自然越容易達(dá)成轉(zhuǎn)化，所以常見算法也就是向量里面的夾角余弦算法、皮爾遜系數(shù)，從距離來說會(huì)有歐幾里得空間距離算法、曼哈頓距離算法等等，包括還有許多新進(jìn)研究的算法例如基于圖摘要和內(nèi)容相似混合聚類的推薦算法GCCR。

簡(jiǎn)單介紹下GCCR，該算法可以極端稀疏的數(shù)據(jù)集上具有較高的準(zhǔn)確度，同時(shí)在冷啟動(dòng)的場(chǎng)景下能夠提供多樣性的推薦結(jié)果，從而避免推薦結(jié)果收斂過快的問題。

首先，選取用戶節(jié)點(diǎn)中關(guān)注數(shù)量較高的節(jié)點(diǎn)，從而抽取出稀疏數(shù)據(jù)中的一個(gè)密集子集，利用圖摘要的方法，對(duì)此密集子集形成關(guān)注興趣相似的核心聚類。

然后，提取種子聚類的內(nèi)容特征和整個(gè)數(shù)據(jù)集中其它用戶的內(nèi)容特征，基于內(nèi)容相似度對(duì)整個(gè)用戶群進(jìn)行聚類，最后將聚類結(jié)果用于主題推薦。通過對(duì)密集數(shù)據(jù)子集和全數(shù)據(jù)集的兩階段聚類過程，提高對(duì)極端稀疏數(shù)據(jù)集的聚類效果。同時(shí)，由于圖摘要聚類中的類模糊性，可以在對(duì)用戶興趣聚類的過程中保留一定的多樣性，從而避免冷啟動(dòng)時(shí)收斂過快。

所以當(dāng)前算法非常的多，結(jié)合不同場(chǎng)景和產(chǎn)品選擇最優(yōu)算法，才是最好的，在附錄5當(dāng)中也列舉了常規(guī)的一些距離算法以供參考。

5.3　運(yùn)用思路

當(dāng)運(yùn)用于實(shí)際情況時(shí)，一定要結(jié)合產(chǎn)品自身情況考量，例如產(chǎn)品冷啟動(dòng)期間數(shù)據(jù)過少，用哪種方法，在數(shù)據(jù)量級(jí)充分上來的時(shí)候，減輕計(jì)算壓力應(yīng)該用哪種，長(zhǎng)期需要修正的時(shí)候需要用哪種，都是需要我們綜合考量的，下面也將自己梳理的整體推薦思路進(jìn)行分享。

千人一面

在產(chǎn)品上線初期，無論使用人數(shù)，還是內(nèi)容，都相對(duì)較少，還未有足夠數(shù)據(jù)支撐用戶相關(guān)行為以及趨勢(shì)，所以在此階段，以收集用戶行為、屬性為最高目的，先達(dá)成最粗略的推薦行為，也就是判斷哪些用戶是疑似某一細(xì)化方向的目標(biāo)用戶，僅此即可。應(yīng)該分為兩個(gè)方向來考慮這個(gè)問題，新用戶和老用戶，對(duì)于新用戶只能從環(huán)境熟悉和可能的物理屬性進(jìn)行判斷，老用戶可以全方位多維度判斷，詳見第二章，這里不多做敘述。

所以在當(dāng)前階段，主要目標(biāo)就是收集用戶行為，一切行為均不能遺漏，這也就是前文所說的，先圍繞每個(gè)人建立一套粗略喜好標(biāo)簽?zāi)Ｐ?，此階段希望的是實(shí)時(shí)調(diào)整，根據(jù)用戶使用頻次和動(dòng)作來決定，一定要快，因?yàn)閯倓偵暇€，用戶隨時(shí)有可能離開。在用戶隨手點(diǎn)擊內(nèi)容以后回到首頁(yè)的時(shí)候發(fā)現(xiàn)已經(jīng)有較為感興趣的內(nèi)容了，那種好感度是不一樣的。

千人十面

在這個(gè)階段，已然有之前的用戶行為的基礎(chǔ)數(shù)據(jù)作為支持了，所以我們首先要做的就是將用戶分組，將有相似喜好的用戶找到，方法就是用最經(jīng)典的向量算法里的夾角余弦，每個(gè)用戶直接都要分別計(jì)算，不過好再現(xiàn)階段用戶量級(jí)不多，可以大量計(jì)算。計(jì)算依據(jù)也就是根據(jù)之前用戶的相關(guān)操作行為，給用戶打上的相關(guān)標(biāo)簽，按照標(biāo)簽相似度來給用戶進(jìn)行聚類。

所以在聚類完成后，一定會(huì)獲得離別內(nèi)某種同樣的特征值，所以這也就完成了第二階段的工作，每個(gè)類別內(nèi)的用戶進(jìn)行相同的內(nèi)容展示。

而且我們已經(jīng)知道了喜愛不同項(xiàng)目之間的用戶特征屬性，這時(shí)候再進(jìn)來的用戶，我們也就可以相應(yīng)的放在疑似庫(kù)里了，等到收集到相應(yīng)的新用戶行為，也就能確定這個(gè)新用戶的相關(guān)喜好方向了，成本會(huì)減小很多。所以在這個(gè)階段，要盡量收集全，時(shí)間可以控制在2周左右，為下一步更加精準(zhǔn)的推薦做準(zhǔn)備。

千人百面

從這里開始，伴隨著的一定是大批量計(jì)算。所以這里我們就是通過每個(gè)人的行為，猜測(cè)每個(gè)人的未知喜好，進(jìn)行最大化的推薦匹配，我們需要設(shè)定動(dòng)作權(quán)重系數(shù)，例如：有效打開=5, 分享=4, 收藏=3, 互動(dòng)=2 , 其它跳轉(zhuǎn)=1, 無效打開=-2 , 點(diǎn)×=-5。

設(shè)定完畢后，我們可以看到當(dāng)用戶A、B、C在第二步時(shí)，在同一類組，看到的內(nèi)容均相同，但是行為可能完全不同。我們就能得到以下的近似值，設(shè)任意三篇內(nèi)容為x、y、z軸，那么對(duì)于用戶A來說，那就是(3,-1,-1)，B君是(5,1,-5)，C君是(-5,3,3)。用夾角余弦=向量點(diǎn)積/ (向量長(zhǎng)度的叉積)，所以 A君B君夾角的余弦是0.81，A君C君夾角的余弦是-0.97。

根據(jù)余弦定則，等于1是0°，就是完全重合，-1是180°完全相反，所以越靠近1兩者越相似，所以AB相似，所以看AB用戶之間的差異，比如A看了x的新聞，B只看了y的新聞，就可以進(jìn)行交叉推薦了。

所以當(dāng)內(nèi)容（x、y、z）越多時(shí)，計(jì)算越準(zhǔn)確，直接的結(jié)果那就是由于數(shù)據(jù)量的不斷增大以及用戶量級(jí)的不斷增大，每一次計(jì)算也是不現(xiàn)實(shí)的，用戶也多，次數(shù)就多，內(nèi)容也多，點(diǎn)就多，所以考慮到這些，我們?cè)诘谒牟竭_(dá)成最終的目的。

千人千面

我們通過之前的數(shù)據(jù)積累，大量收集用戶之前的相關(guān)行為，在這里要通過協(xié)同過濾矩陣及拆解來解決問題，矩陣拆解的核心其實(shí)是為了得到潛在因子，所以我們需要怎么做。

將內(nèi)容與用戶的行為結(jié)合，變?yōu)檫@一張表格，能相應(yīng)減少許多計(jì)算量同時(shí)達(dá)到不錯(cuò)的效果，如下表：

設(shè)定有效打開=5, 分享=4, 收藏=3, 互動(dòng)=2 , 其它跳轉(zhuǎn)=1, 無效打開=-2 , 點(diǎn)×=-5。

將表格利用協(xié)同過濾中的矩陣拆解進(jìn)行計(jì)算，我們就可以得到如下兩張表：

這兩個(gè)矩陣相乘就可以得到估計(jì)的得分矩陣：

將用戶已經(jīng)看過的內(nèi)容剔除后，選擇分?jǐn)?shù)最高內(nèi)容的推薦給用戶即可（紅體字）。所以在這里，我們其實(shí)已經(jīng)就完全可以精準(zhǔn)化的推薦了，結(jié)果與計(jì)算量達(dá)到了相應(yīng)的平衡。

已經(jīng)到這一步了，這時(shí)候每個(gè)人的展示信息已然不盡相同，所以要結(jié)合人的之前打開行為，一定要結(jié)合時(shí)間、場(chǎng)景、內(nèi)容載體考慮之后的推薦，并且適當(dāng)加入長(zhǎng)尾內(nèi)容，用戶感興趣的大方向，但是細(xì)化方向沒有臨幸過的。

5.4　抽樣

抽樣技術(shù)在數(shù)據(jù)挖掘中主要用在兩個(gè)地方：一是在數(shù)據(jù)預(yù)處理和后處理階段，為了避免計(jì)算規(guī)模過大；二是在數(shù)據(jù)挖掘階段，通常會(huì)對(duì)訓(xùn)練出來的模型進(jìn)行交叉驗(yàn)證，需要抽樣將所有樣本劃分為訓(xùn)練集和測(cè)試集。

通常所說的抽樣都是隨機(jī)抽樣，主要用于所有樣本點(diǎn)都可以認(rèn)為沒有區(qū)分時(shí)適用。還有一種分層抽樣，在樣本需要顯著的分為不同的子集時(shí)，針對(duì)每個(gè)子集分別進(jìn)行抽樣。

5.5　維度規(guī)約

當(dāng)樣本的維度增加的時(shí)候，待學(xué)習(xí)的模型的復(fù)雜性是隨著維度呈指數(shù)增長(zhǎng)的，這種現(xiàn)象通常稱為“維災(zāi)難”。這也就意味著，如果我們想在高維空間中學(xué)到和在低維空間中精度一樣高的模型，所需要的樣本數(shù)是呈指數(shù)增長(zhǎng)的。

維度規(guī)約通常是用來處理維災(zāi)難問題的。通常維度規(guī)約有兩種思路，一是從高維數(shù)據(jù)中選出最能表達(dá)數(shù)據(jù)的一些維度，并用這些維度來代表數(shù)據(jù)，稱為特征選擇；另一種是將高維數(shù)據(jù)通過某種技巧變換映射到低維空間，稱為特征構(gòu)造。

主成分分析是最主要的一種特征選擇方式，它通過特征分解能夠得到每一個(gè)維度對(duì)于整個(gè)數(shù)據(jù)的最小均方差的貢獻(xiàn)程度，從而定量判斷每一維對(duì)于數(shù)據(jù)所包含信息的貢獻(xiàn)度。然后保留最主要的一些維度，拋棄一些不顯著的維度，對(duì)數(shù)據(jù)進(jìn)行降維。

奇異值分解是主要的特征構(gòu)造方式，它通過矩陣分解的方式，將數(shù)據(jù)從高維空間映射到低維空間，對(duì)數(shù)據(jù)進(jìn)行降維。

5.6　推薦展示

展示階段，我們應(yīng)該以用戶為唯一維度來進(jìn)行思考，從第三章也能看出分為外因和內(nèi)因，通過外因確定大方向，通過本次的操作行為確定內(nèi)因，兩者結(jié)合，時(shí)時(shí)修正，達(dá)到貼合用戶的目的。所以并不一定是用戶歷史行為某類型內(nèi)容打開較多、較高就要通通放在前面，在自身使用時(shí)候還有所謂的厭倦，與驚喜內(nèi)容相結(jié)合，并且是先弱后強(qiáng)還是先強(qiáng)后弱還是兩頭強(qiáng)中間弱，都是我們應(yīng)該通過用戶時(shí)時(shí)改變的，強(qiáng)弱為通過歷史行為分析出的內(nèi)容對(duì)用戶吸引力的量詞。

5.7　信息繭房

當(dāng)前所有的做法都是在不惜代價(jià)的盡量精準(zhǔn)的完成推送，轉(zhuǎn)化最大化，可是這樣真的好嗎？不禁從另一個(gè)角度思考，如果用戶收到的都是符合喜好的內(nèi)容，就是最好的選擇了嗎？其實(shí)不然，這則很有可能陷入更危險(xiǎn)境地——信息繭房。

美國(guó)學(xué)者凱斯·R·桑斯坦指出信息繭房以“個(gè)人日?qǐng)?bào)”的形式呈現(xiàn)：“伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)達(dá)、信息的劇增，人們可以隨意選擇想關(guān)注的話題，可依據(jù)喜好定制報(bào)紙、雜志，每個(gè)人都可為自己量身打造一份“個(gè)人日?qǐng)?bào)”。當(dāng)個(gè)人被禁錮在自我建構(gòu)的信息脈絡(luò)中，生活必然變得程序化、定式化，信息繭房就像是“回音室”，人們?cè)O(shè)定了話題、觀點(diǎn)，聽到的是自己的回音，每個(gè)人將都閉塞在自己的空間之內(nèi)?！?/p>

在面對(duì)個(gè)性化新聞推薦如何走出“信息繭房”，遏制其產(chǎn)生的“回音壁”傾向，桑斯坦提出應(yīng)該構(gòu)建網(wǎng)絡(luò)的“人行道”模式。他認(rèn)為無論使物理空間的街道、公園、還是報(bào)紙、廣播、電視等大眾媒體，都屬于公共領(lǐng)域，都應(yīng)該像“人行道”一樣，可能會(huì)遇到種種非計(jì)劃和不想要的情景，不同的人群會(huì)體認(rèn)到新鮮體驗(yàn)；那些未經(jīng)實(shí)現(xiàn)篩選而遭遇的情狀，會(huì)引發(fā)人們的言行互動(dòng)。

按照桑斯坦的理論，媒體應(yīng)該添加“公共論壇”，通過提供用戶“非計(jì)劃”和“不想要”的信息，讓他們有機(jī)會(huì)接觸到不同領(lǐng)域的信息。當(dāng)前新聞?lì)惪蛻舳顺Ｒ?guī)做法一般都是添加“熱點(diǎn)”類的頻道欄目，并且在每個(gè)不同的頻道下的信息流中用帶“熱”字的紅色小標(biāo)提示熱點(diǎn)信息以示區(qū)別。讓用戶接觸到不同階層的觀點(diǎn)，不同類別的信息。

但是在個(gè)性化新聞推薦方面，應(yīng)該弱化用戶相關(guān)性推薦的原則，拓寬用戶的關(guān)注領(lǐng)域。個(gè)性化推薦除了基于用戶自身的基本信息，還有就是基于協(xié)同過濾的，是根據(jù)社交關(guān)系中的好友的興趣進(jìn)行關(guān)聯(lián)推薦。這種推薦原則會(huì)使用戶聚集一批與自身在興趣、文化等方面相類似的朋友，關(guān)注對(duì)象的同質(zhì)化會(huì)讓用戶接收的信息也趨向于同質(zhì)化。

所以如何根據(jù)當(dāng)前的興趣建立模型，分析依據(jù)當(dāng)前興趣推測(cè)之后的興趣偏移點(diǎn)，甚至偏移速度，在適時(shí)的時(shí)候完成長(zhǎng)尾化內(nèi)容推薦，可能才是未來推薦系統(tǒng)真正的價(jià)值。

5.8　小結(jié)總結(jié)

隨著算法出爐之后，是需要經(jīng)過長(zhǎng)期的修正以及實(shí)時(shí)調(diào)整的，在這里面的樣例，依然將用戶分了組處理。我相信像頭條、網(wǎng)易新聞這種體量的APP來說，應(yīng)該是以每個(gè)人就是一個(gè)維度，每個(gè)人為單位計(jì)算和文章內(nèi)容的相似度，才是終極目的。因?yàn)槿擞凶约旱挠脩魳?biāo)簽體系，內(nèi)容同樣也有，先確定能影響用戶權(quán)重的最大標(biāo)簽做粗略篩選，之后精細(xì)化每篇內(nèi)容和每個(gè)人進(jìn)行向量計(jì)算逐一得到結(jié)果，逐一進(jìn)行推薦。

在每天夠后一定要有相應(yīng)的review，評(píng)估之前策略的效果，結(jié)合瀏覽時(shí)間、打開比例、互動(dòng)反饋、卸載情況等綜合考慮策略的優(yōu)劣，快速調(diào)整，下面就要相應(yīng)介紹評(píng)估體系的建立。

6. 評(píng)估體系

我們應(yīng)該獲得的是根據(jù)用戶對(duì)推薦的顯性或隱性反饋改進(jìn)、優(yōu)化原有用戶模型，以確保模型能夠匹配用戶的最新偏好，從而提高模型精度和推薦質(zhì)量。

6.1　評(píng)估維度

精確度的衡量最典型的算法是平均絕對(duì)誤差（MAE）、平均平方誤差（MSE）以及標(biāo)準(zhǔn)平均誤差（NMSE）。平均絕對(duì)誤差是所有單個(gè)觀測(cè)值與算術(shù)平均值的偏差的絕對(duì)值的平均，用來衡量一組數(shù)自身的離散程度。有兩個(gè)優(yōu)點(diǎn)，第一是計(jì)算方法簡(jiǎn)單，易于理解，第二是每個(gè)系統(tǒng)的平均絕對(duì)誤差唯一，從而能夠區(qū)分兩個(gè)系統(tǒng)平均絕對(duì)誤差的差異，能更好地反映預(yù)測(cè)值誤差的實(shí)際情況。在有些系統(tǒng)中，用戶只在意推薦列表前端的預(yù)測(cè)誤差，而對(duì)系統(tǒng)的整體誤差并不是很在意，這時(shí)也不適合采用預(yù)測(cè)準(zhǔn)確度進(jìn)行評(píng)估，后兩種更適合用分類準(zhǔn)確度度量系統(tǒng)的推薦質(zhì)量，來衡量觀測(cè)值同真值之間的偏差，說明樣本的離散程度，可作為衡量測(cè)量精度的一種數(shù)值指標(biāo)。

集合準(zhǔn)確率、召回率和精確率也可以用來衡量推薦的準(zhǔn)確度，準(zhǔn)確率表示用戶對(duì)一個(gè)被推薦內(nèi)容感興趣的可能性，召回率定義為推薦列表中用戶喜歡的內(nèi)容與系統(tǒng)中用戶喜歡的所有內(nèi)容的比率，精確率定義為推薦列表中用戶瀏覽的內(nèi)容與全部推薦內(nèi)容的比率。

其中還有像多樣性（平均海明距離）、分類準(zhǔn)確度（ROC曲線）、排序準(zhǔn)確度（平均排序分）、以及半衰期（半衰參數(shù)）的因素，之前也描述過用戶的興趣還好是在隨著時(shí)間的不斷推移而增強(qiáng)或減弱的。除此之外與用戶直接相關(guān)的比如驚喜度、意外程度、覆蓋率、新鮮感、用戶滿意度等指標(biāo)仍可說明。

這些評(píng)估的獲得手段一般從用戶反饋、數(shù)據(jù)量化、長(zhǎng)期觀察和體驗(yàn)數(shù)據(jù)來獲得，最終均要轉(zhuǎn)化為量化指標(biāo)來進(jìn)行評(píng)估，例如使用時(shí)長(zhǎng)、使用深度、打開比例等等，之后再進(jìn)行拆解，某一指標(biāo)與哪些行為相關(guān)，進(jìn)行相關(guān)的行為追查，直接定位。從而達(dá)到評(píng)估體系的核心意義，到底是好還是不好，如果不好問題在哪兒，定位后進(jìn)行修正。這部分產(chǎn)品同學(xué)只要大概了解有什么方法，即可，具體的原理有算法團(tuán)隊(duì)來做，要都搞清楚太難了，已經(jīng)涉及太多的數(shù)學(xué)內(nèi)容，有興趣的課余時(shí)間自己學(xué)習(xí)即可。

6.2　相關(guān)修正

目前采用的用戶模型更新技術(shù)主要可以分成三類：一類是從用戶反饋中抽取新信息添加到用戶模型中的信息增補(bǔ)技術(shù)；一類是根據(jù)生態(tài)系統(tǒng)的優(yōu)勝劣汰法則來優(yōu)化用戶模型的自然進(jìn)化技術(shù)；還有一類是通過調(diào)整網(wǎng)絡(luò)連接權(quán)重來自適應(yīng)更新的神經(jīng)網(wǎng)絡(luò)技術(shù)。

信息增補(bǔ)技術(shù)

這是目前為止使用最多的一類用戶模型更新技術(shù)。它又包括了直接的信息增補(bǔ)以及涉及權(quán)重調(diào)整的信息增補(bǔ)兩種類型。前者將獲取的用戶對(duì)推薦的反饋信息直接添加到用戶模型中，典型系統(tǒng)如GroupLens、Ringo、Video　Recommender、PC Findert、WEBSELL等。這種更新只是簡(jiǎn)單地添加了新信息，并沒有刪除或削減無效舊信息在用戶模型中的作用，因此很可能導(dǎo)致推薦階段假陽(yáng)性錯(cuò)誤的出現(xiàn)，即將用戶不喜歡的項(xiàng)目推薦給了用戶。

而且隨時(shí)間的推移，模型規(guī)模不斷擴(kuò)大，這帶來了存儲(chǔ)空間占用和模型維護(hù)問題。相比之下，采用后者作為更新技術(shù)的系統(tǒng)，如LetiziatL、Personal Web Watcher、Webmate、Krakatoa Chronicle和WebCobral ，不僅將用戶新的反饋信息(如新關(guān)鍵詞)增加到用戶模型中，而且還會(huì)調(diào)整用戶模型中新、舊信息的權(quán)重，使反映用戶最新偏好的新信息在推薦中起到更為重要的作用，同時(shí)無效的舊信息將隨其權(quán)重的不斷減小而最終從模型中被刪除。因此，含權(quán)重調(diào)整的信息增補(bǔ)技術(shù)從一定程度上緩解了直接信息填補(bǔ)存在的問題，但這類技術(shù)的性能很容易受到新信息選擇方法和被增加的新信息數(shù)量的影響。

遺傳算法

遺傳算法是一種基于自然選擇和遺傳機(jī)理的迭代搜索優(yōu)化技術(shù)，由適應(yīng)度函數(shù)、染色體種群以及選擇、交叉和變異三個(gè)主要操作算子組成。每一代種群包含了若干個(gè)個(gè)體（被稱為染色體）。依據(jù)每個(gè)個(gè)體的適應(yīng)度函數(shù)值，種群經(jīng)過選擇，交叉和變異操作一代代向更優(yōu)良、更適應(yīng)環(huán)境的方向進(jìn)化，從而逐漸逼近最優(yōu)解。使用遺傳算法作為模型更新技術(shù)的系統(tǒng)。

通常將用戶模型編碼成一個(gè)染色體并隨機(jī)產(chǎn)生其他染色體作為初始種群。當(dāng)初始種群進(jìn)化迭代到滿足終止條件時(shí)，解碼適應(yīng)度最高的染色體來取代系統(tǒng)目前的剛戶模型即可實(shí)現(xiàn)更新。還有一部分系統(tǒng)也使用遺傳算法作為模型的更新機(jī)制，但這部分系統(tǒng)通過對(duì)信息收集代理而不是用戶模型本身的優(yōu)勝劣汰來間接實(shí)現(xiàn)模型更新。當(dāng)用戶興趣發(fā)生變化時(shí)，通過遺傳進(jìn)化，低性能的舊代理被消除，能直接滿足用戶新必趣或?qū)τ脩艏捌渌碛杏玫拇淼玫椒毖堋?/p>

基于遺傳算法的更新技術(shù)從多個(gè)初始點(diǎn)(群體)而不是單點(diǎn)出發(fā)持續(xù)搜索可能的用戶模型構(gòu)成空間，因此是一種高效且能夠最優(yōu)化用戶模型的更新算法。但是基于遺傳算法的更新技術(shù)，其適應(yīng)度函數(shù)和染色體編碼方法要求針對(duì)每個(gè)問題專門設(shè)計(jì)。

神經(jīng)網(wǎng)絡(luò)技術(shù)

神經(jīng)網(wǎng)絡(luò)是一種自適應(yīng)的更新技術(shù)。當(dāng)用戶偏好隨時(shí)問發(fā)生變化時(shí)，神經(jīng)網(wǎng)絡(luò)將自適應(yīng)地調(diào)整網(wǎng)絡(luò)連接權(quán)重，更新網(wǎng)絡(luò)輸出的識(shí)別結(jié)果來跟蹤這種變化。有的更新只在原有類別的基礎(chǔ)上對(duì)新舊偏好信息進(jìn)行分類調(diào)整，有的則建立新的識(shí)別類，并剪除代表過時(shí)知識(shí)的識(shí)別類來對(duì)應(yīng)于用戶新興趣的興起和舊興趣的衰亡。在這種情況下，神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生了變化，網(wǎng)絡(luò)可能需要被重新訓(xùn)練來識(shí)別和記憶變化后的用戶偏好。由于神經(jīng)網(wǎng)絡(luò)的更新依賴于前期神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)，因此通常只有以神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)技術(shù)的系統(tǒng)才會(huì)用其作為更新技術(shù)。

與模型學(xué)習(xí)技術(shù)相比，用戶模型更新技術(shù)更關(guān)牲just-in-time型的學(xué)習(xí)而不是模型的建立和執(zhí)行，因此算法需要具有更強(qiáng)的學(xué)習(xí)效率和對(duì)動(dòng)態(tài)變化的適應(yīng)能力。但是也有相應(yīng)問題，目前的模型更新技術(shù)通常只按照固定頻率對(duì)模型進(jìn)行更新，這使得系統(tǒng)無法及時(shí)跟蹤和捕捉用戶興趣的變化，從而造成了推薦結(jié)果和用戶實(shí)際興趣的差異。

6.3　小結(jié)總結(jié)

本節(jié)闡述評(píng)估體系的建立，列舉相關(guān)維度和相關(guān)動(dòng)作等，并且列舉相關(guān)的修正手段和簡(jiǎn)單介紹，以供在長(zhǎng)期不斷修正模型和算法，達(dá)到更好的效果，更全面優(yōu)質(zhì)的服務(wù)用戶。

7. 全文總結(jié)

整篇文章闡述了搭建推薦體系的全流程，從思路表述、標(biāo)簽體系、用戶體系、項(xiàng)目體系、推薦環(huán)節(jié)和評(píng)估體系的建立和相關(guān)細(xì)節(jié)及當(dāng)前的模式，技術(shù)手段等。盡量完整和周密的闡述了全部流程以供梳理和參考，在正文后還有附錄部分，闡述詳細(xì)的算法和摘錄的相關(guān)方法以共參考。

凱文凱利在《失控》一書中提出“共同進(jìn)化”的觀點(diǎn)：

進(jìn)化就是不斷適應(yīng)環(huán)境以滿足自身的需求。共同進(jìn)化是更全面的進(jìn)化觀點(diǎn)，就是不斷適應(yīng)環(huán)境以滿足彼此的需求。媒介通過競(jìng)爭(zhēng)不斷進(jìn)化適應(yīng)環(huán)境，同時(shí)也提供了更好的服務(wù)更多的選擇給用戶，滿足了用戶日益增長(zhǎng)的需求。

在當(dāng)前，即使使用推薦系統(tǒng)，也并沒有根本上解決人們?nèi)绾斡行Й@得信息的難題。所以仍可以嘗試探索更加智能的信息獲取模式，以及更加自然的人機(jī)交互接口。

猶如“大白”一樣的貼心，處處想在用戶前面，在合適的時(shí)候?qū)⑾肟吹男畔⒄故境鰜?，隨情緒而變，畢竟人類心理活動(dòng)是十分微妙的，盡量通過規(guī)律摸清人類的喜好遷移，洞察微妙的行為變化，是未來努力的方向。

8. 參考資料

《zouxy09》——部分機(jī)器學(xué)習(xí)資料來源；
《LeftNotEasy – Wangda Tan》——同上；
《深入探討 | 其實(shí)你并不懂產(chǎn)品標(biāo)簽機(jī)制》——標(biāo)簽部分部分思路來源；
《淺談矩陣分解在推薦系統(tǒng)中的應(yīng)用》——向量拆解部分知識(shí)來源；
《網(wǎng)易云音樂的歌單推薦算法是怎樣的？》——當(dāng)前主流推薦算法來源；
《百分點(diǎn)研發(fā)總監(jiān)蘇海波：大數(shù)據(jù)用戶畫像的方法及營(yíng)銷實(shí)踐》——用戶畫像部分價(jià)值；
省略一百余篇推薦、算法、心理學(xué)、行為學(xué)專業(yè)論文，實(shí)在太多，不便復(fù)制上來，表示統(tǒng)一感謝。