99精品国产福久久久久久,亚洲男人天堂2021,国内精品久久久久久中文字幕

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

深度丨從零搭建推薦體系：用戶體系、項目體系和推薦體系（中）

丶追殺那只熊

2016-09-23

0 評論 49824 瀏覽 273 收藏

47 分鐘

本文闡述整個推薦體系從0搭建的全流程，也是最近以來一直深入研究的成果展現(xiàn)，因原文太長，故此切分成3部分發(fā)送，每天發(fā)送1篇，全文結(jié)構(gòu)為：上篇：第零章概述，第一章標(biāo)簽體系搭建；中篇：第三章用戶體系，第四章項目體系，下篇：第五章推薦體系，第六章評估體系，第七章全文總結(jié)，第八章參考資料。

內(nèi)容相對全而深入，希望有推薦體系搭建意愿的平臺或者產(chǎn)品經(jīng)理，能夠給予一定的幫助就好。另，求工作。

上篇回顧《深度丨從零搭建推薦體系（上）》

2.?用戶體系

2.1 搭建流程

首先應(yīng)該先確定用戶動機(jī)，因為從用戶的根本動機(jī)，我們才好做相應(yīng)的推薦處理。

那么我們應(yīng)該如何獲取用戶動機(jī)？只有一種方法，就是通過用戶行為。所以我們應(yīng)該優(yōu)先建立用戶行為體系，依據(jù)用戶行為，分析用戶動機(jī)；不管是主動動機(jī)還是被動動機(jī)，之后提取這些動機(jī)特征，結(jié)合用戶物理屬性，再進(jìn)行后處理。再有要將特征值加以過濾，分配權(quán)重，結(jié)合衰減因子進(jìn)行最終輸出。最終輸出的結(jié)果應(yīng)該分為基本屬性、用戶興趣、用戶關(guān)系及用戶行為，結(jié)合所有綜合分析用戶動機(jī)，在適時的時候推薦合適的內(nèi)容從而形成推薦最佳化的最終目的，讓用戶最小成本的獲取信息。

所以在分析的時候，依據(jù)用戶動機(jī)分析，推斷我們應(yīng)該注意的哪些環(huán)節(jié)點的哪些事情。

2.2 動機(jī)經(jīng)典理論

在建立行為體系之前，一定要介紹動機(jī)和行為的關(guān)系。而又不得不介紹行為科學(xué)界一直以來的一個經(jīng)典理論：“使用與滿足”理論，該理論是1974年E·卡茨在其著作《個人對大眾傳播的使用》中被首先提出。

使用與滿足理論是站在受眾的立場上，通過分析受眾對媒介的使用動機(jī)和獲得需求滿足來考察大眾傳播給人類帶來的心理和行為上的效用。但同傳統(tǒng)的訊息如何作用受眾的思路不同：它強(qiáng)調(diào)受眾的作用，突出受眾的地位。該理論認(rèn)為受眾通過對媒介的積極使用，從而制約著媒介傳播的過程，并指出使用媒介完全基于個人的需求和愿望。

E·卡茨將媒介接觸行為概括為一個“社會因素+心理因素→媒介期待→媒介接觸→需求滿足”的因果連鎖過程，提出了“使用與滿足”過程的基本模式。經(jīng)后人的補(bǔ)充和發(fā)展，綜合提出“使用與滿足”的過程：

人們接觸使用傳媒的目的都是為了滿足自己的需要這種需求和社會因素、個人的心理因素有關(guān)。
人們接觸和使用傳媒的兩個條件：接觸媒介的可能性；媒介印象即受眾對媒介滿足需求的評價，這種媒介印象或成為評價是在過去媒介接觸使用經(jīng)驗基礎(chǔ)上形成的。
受眾選擇特定的媒介和內(nèi)容并開始使用。
接觸使用后的結(jié)果有兩種：一種是滿足需求，一種是未滿足。
無論滿足與否，都將影響到以后的媒介選擇使用行為，人們根據(jù)滿足結(jié)果來修正既有的媒介印象，不同程度上改變著對媒介的期待。

總結(jié)了使用與滿足理論的要素，包括：

受眾是主動的，對于大眾媒介的使用是有目標(biāo)的。
受眾需要的滿足和對媒介的選擇間的聯(lián)系中，受眾擁有主動權(quán)。
媒介相互競爭以滿足受眾需要。

所以最終映射到網(wǎng)絡(luò)，不難分析出用戶使用網(wǎng)絡(luò)一般是是為了：（1）人際交往；（2）打發(fā)時間；（3）搜尋信息；（4）方便快速；（5）信息分享；（6）自我表達(dá)；（7）娛樂放松。

社會心理學(xué)的理性行為理論和建立在該理論基礎(chǔ)上的技術(shù)接受模型（Technology Acceptance Model，簡稱TAM）最早探究了哪些因素對人們有意識的行為產(chǎn)生影響。1989年，Davis在理性行為理論的基礎(chǔ)上，針對技術(shù)接受和使用行為提出了技術(shù)接受模型：

TAM認(rèn)為系統(tǒng)使用行為是由行為意向決定的，而行為意向由想用的態(tài)度和感知的有用性共同決定，想用的態(tài)度由感知的有用性和感知易用性共同決定，感知的有用性是由感知的易用性和外部變量共同決定，感知的易用性由外部變量決定的。

外部變量包括系統(tǒng)設(shè)計特征、用戶特征(包括感知形式和其他個性特征)等，為技術(shù)接受模型中存在的內(nèi)部信念、態(tài)度、意向和不同的個人之間的差異、環(huán)境約束、可控制的干擾因素之間建立起一種聯(lián)系。

2.3 今日頭條動機(jī)分析

理論介紹完畢，也應(yīng)該從理論切入分析當(dāng)前最厲害的內(nèi)容推薦平臺，也就是不得不提的今日頭條了。那么從有限的研究論述當(dāng)中，可以從已經(jīng)成功的產(chǎn)品中獲取到用戶使用頭條產(chǎn)品的相關(guān)動機(jī)大致是什么，以指導(dǎo)我們?nèi)蘸蟮漠a(chǎn)品方向。

頭條相關(guān)的研究論文里的方法，也注明與附錄3中，以供查看，下面將直接節(jié)選結(jié)論部分，以供參考。

今日頭條流行的主要原因是抓住了受眾對個性化需求的心理。對用戶需求的研究結(jié)果表明，“個性化推薦”（60.79%）、“更新速度快”（60%）、“推送內(nèi)容多（45.26%）是用戶最為強(qiáng)烈的三種動機(jī)。

個性化主要體現(xiàn)在三個方面：

頻道定制：用戶可以訂閱自己感興趣的頻道（“今日頭條”提供了社會、娛樂、政治、熱點等48個頻道），同時提供位置信息享受本地化新聞服務(wù)（還包含同城活動信息），而且“今日頭條”也和微信一樣開辟了自媒體平臺，用戶可關(guān)注自己感興趣自媒體賬號。
個性化推薦：“今日頭條”若在新聞標(biāo)題最左方標(biāo)注一個藍(lán)色的“薦”字，則表示為是根據(jù)用戶興趣專門推薦的內(nèi)容?！敖袢疹^條”的信息分發(fā)完全基于智能推薦，用戶瀏覽、收藏、轉(zhuǎn)發(fā)、評論每一條新聞的行為都會被記錄，用戶的閱讀習(xí)慣、閱讀時間、閱讀位置也會被分析，兩者結(jié)合形成“用戶模型”。通過綁定社交媒體賬號和大數(shù)據(jù)挖掘，后續(xù)還會根據(jù)用戶使用產(chǎn)品的信息反饋（用戶在“今日頭條”上的“頂”、“踩”、“轉(zhuǎn)發(fā)”、“收藏”等行為），不斷進(jìn)行算法的演進(jìn)，用戶分析越精準(zhǔn)，推薦內(nèi)容越來越精確。
個性化體驗：服務(wù)性功能如“離線閱讀”“同步收藏”“我的話題”“摘要模式”“閱讀模式”“字體設(shè)置”都可以根據(jù)自己需求定制，體現(xiàn)了良好的用戶體驗。

更新方法主要分為以下三種：

自動更新：手動更新以及推送更新。自動更新一般幾分鐘到幾十分鐘不等；
手動更新的設(shè)置是為了滿足用戶實時對信息的需求，每一次刷新都會有8-12 條不等的信息；
推送更新是將信息發(fā)送到用戶手機(jī)通知上，一天大約 6-10條不等，主要為社會要聞。

并且頭條為了滿足碎片化閱讀的需求，在新聞類型方面，新聞主要以消息和圖片為主，鮮少特寫、通訊和深度報道等傳統(tǒng)意義上報紙的新聞體材，字?jǐn)?shù)控制在1000字左右。

根據(jù)《今日頭條年度數(shù)據(jù)報告》，衡量讀者閱讀習(xí)慣的有兩個指標(biāo)：第一個是平均停留時長，第二個是跳出率。1000字的文章跳出率是22.1%，平均停留時長是48.3秒。4000字的文章則剛好相反，跳出率高達(dá)65.8%，超過一半以上的人打開一篇文章發(fā)現(xiàn)太長后會選擇跳出。可見1000字以內(nèi)的文章的傳播率會更高。

同時，頭條還加入視頻新聞；但并未像搜狐或是新浪客戶端那樣做成一個單獨的功能，而是將其嵌入頻道中。視頻內(nèi)容長度在1分鐘以內(nèi)，以減少流量的消耗，主要以輕松、搞笑的內(nèi)容為主。

所以結(jié)合研究結(jié)論不難看出，頭條用戶的最大使用動機(jī)仍是精準(zhǔn)的個性化推薦，也就是仍需要以精準(zhǔn)的推薦為吸引用戶打開的核心來源。

2.4 分析模型

由上圖可知，我們應(yīng)該依據(jù)已經(jīng)成熟的用戶行為，推斷用戶的動機(jī)因子，再推斷至心里因素。實際來說是用戶其實已經(jīng)是帶動機(jī)才打開APP，先依據(jù)有限的數(shù)據(jù)進(jìn)行分析推薦，等有相關(guān)的行為之后，反推回去用戶的動機(jī)，根據(jù)用戶動機(jī)調(diào)整推薦內(nèi)容，達(dá)到核心目的。

這么做的好處是什么呢？頭條類產(chǎn)品全都是依托于用戶行為，進(jìn)行調(diào)整，但是用戶行為實際是不準(zhǔn)確的。心情好與不好看的內(nèi)容，操作的流程細(xì)節(jié)，很可能都不一樣；如果一味的只記錄行為，只會不準(zhǔn)確偏離。所以當(dāng)我們記錄了用戶在任何情況之下的行為之后，反推回用戶動機(jī)，進(jìn)一步推回用戶心里因素，依據(jù)心里結(jié)合喜好和行為，完成完美推薦。

前文理論中同樣表明，是社會因素與心里因素決定動機(jī)，所以當(dāng)行為習(xí)慣模型建立，社會因素已經(jīng)量化的時候，只有心理因素是變量，那么我們也能分析出不同的心理因素，依據(jù)不同心理因素改變本次的推薦內(nèi)容，我想應(yīng)該會大大提升轉(zhuǎn)化率，并且可能是目前頭條產(chǎn)品所不具備的一個點。

結(jié)合常規(guī)的用戶畫像的相關(guān)屬性，我們可以看到如下圖（增加了購買）：

所以兩者，也就可以合并成為兩條大的脈絡(luò)，一條是實際，一條是內(nèi)心，而我們是要依據(jù)實際行為猜測內(nèi)心。兩張圖結(jié)合，將會無比清晰的闡述用戶脈絡(luò)和之間的關(guān)系：

用戶的瀏覽行為反映了用戶的興趣，兩者之間的關(guān)系具有如下特點：

不同年齡、性別、職業(yè)的用戶偏好反映在用戶對商品的瀏覽行為上；
用戶偏好具有動態(tài)轉(zhuǎn)移性，將其反映在用戶興趣度上，即若用戶偏好發(fā)生轉(zhuǎn)移，則原來的興趣度值減少；
用戶對感興趣的商品會高頻度地點擊和瀏覽，假設(shè)用戶對某種/某類商品的瀏覽時間越長、頻率越高，顧客對該種/類商品越感興趣，反映用戶偏好的興趣度值也會隨之增加。

所以最終，我們會確定需要收集的量化數(shù)字，以代表行為的部分，反推分析，達(dá)到最終目標(biāo)。

2.5 行為收集

一般情況下，動機(jī)拆分為媒介、社交和體驗需求，分別代表的可能原因有：

媒介需求一般有：更新速度快、推送內(nèi)容多；
社交需求一般有：社交性強(qiáng)、互動性強(qiáng)；
體驗需求一般有：個性化推薦精準(zhǔn)、智能搜索快速全面、操作方便、離線下載。

依據(jù)兩種形式，主動行為和被動行為進(jìn)行分類，主動行為就是用戶主動自然操作，被動行為也就是APP人為增加攔截、問題、問卷等收集，所以整理一下我們通過不同動作需要收集的相關(guān)動作應(yīng)該是，主動行為：

媒介：PUSH消息、打開時間；
社交：PUSH通知、分享、攢、回復(fù)、收藏、舉報、等級；
體驗：打開內(nèi)容類型、內(nèi)容載體、內(nèi)容長度、歷史搜索行為、歷史打開偏好、間隔點擊時間、滑動內(nèi)容位置、閱讀設(shè)置、下載緩存；
人口屬性：年齡、性別、地區(qū)、收入、簽名等；
周邊場景：地理位置、網(wǎng)絡(luò)環(huán)境、端、信號強(qiáng)度、耳機(jī)揚聲器、高度等；
被動行為：增加攔截、詢問興趣區(qū)域、反饋、小問題、問卷、×、卸載等。

通過已經(jīng)非常成熟的廣告領(lǐng)域，可以參考到某些重要的信息，仍是我們的獲取重要參考。例如用戶來源追蹤，以及跨域追蹤，所謂跨域追蹤是利用指的是比如你在百度上跳轉(zhuǎn)到新浪，同樣可以追蹤到。利用的手段一般是cookie和緩存，前者一般是自帶key，與用戶關(guān)系不大。

2.6 后處理

后處理一般有三個環(huán)節(jié)，過濾、權(quán)重、衰減因素。過濾一般指過濾提取的無效特征或干擾數(shù)據(jù)，權(quán)重一般根據(jù)不同的行為偏好等因素綜合考量后進(jìn)行調(diào)整，衰減一般要考慮到用戶某個興趣會隨時間延長而降低，相關(guān)變量是用戶點擊頻率和瀏覽時長，依據(jù)相關(guān)變量進(jìn)行調(diào)整遺忘因子系數(shù)。還有一點是利用自然范數(shù)梯度下降算法，來進(jìn)行準(zhǔn)確度的修正。從技術(shù)方面來說都已經(jīng)相對成熟，也有成熟算法，不多做闡述。

2.7 模型輸出

所謂輸出，實際是可依據(jù)上方分析后建模完成的相關(guān)體現(xiàn)。其作用是輔助我們發(fā)現(xiàn)問題，定位并解決。我們要考慮到時效性、便捷性、準(zhǔn)確性等問題。

從效果來看是數(shù)據(jù)，從特征來看是標(biāo)簽。所以數(shù)據(jù)的展現(xiàn)要求的是可視化，以及靈活性，并且要準(zhǔn)確，最小時間間隔維度不能過大。所以選定如：折線圖、漏斗圖、餅圖、柱形圖等常見格式，結(jié)合不同的區(qū)域位置和目的，實現(xiàn)最優(yōu)展示方式選擇。最小時間間隔可以有實時報表或半點報表，每日會匯總報表進(jìn)行輸出，設(shè)置相應(yīng)閥值，波動過閥值后進(jìn)行相應(yīng)報警等機(jī)制處理。

那么用戶標(biāo)簽，其實就是行為標(biāo)簽，依據(jù)行為進(jìn)行計算貼合。是根據(jù)標(biāo)簽體系中的標(biāo)簽建設(shè)，在標(biāo)簽體系中所有標(biāo)簽二維化平鋪，但是在用戶體系中貼合的具體標(biāo)簽將有層級劃分。其實兩者不難發(fā)現(xiàn)是包含與被包含的關(guān)系，既整個標(biāo)簽體系給用戶標(biāo)簽體系提供“素材”，而用戶體系是直接拿來用，所以既然是使用者，就要有詳細(xì)的層級以及權(quán)重計算，這個是非常重要，這與我們的終極目標(biāo)有關(guān)。

我們希望知道用戶被打上這個標(biāo)簽的背后動機(jī)是什么，不同內(nèi)容之間一定存在某種弱關(guān)聯(lián)，弱關(guān)聯(lián)的發(fā)現(xiàn)是通過內(nèi)容標(biāo)簽背后的二維化體系支撐；但是關(guān)聯(lián)側(cè)重和確定選擇，是通過用戶層級標(biāo)簽來做到的，最終借此我們就可以相應(yīng)的給一部分猜測，并給予驚喜推薦，完成超越用戶所想的目的。通過弱關(guān)聯(lián)，我們還可以完成用戶之間的相互推薦，或者用戶聚類等工作，建立用戶之間的關(guān)系網(wǎng)絡(luò)，為搭建社交氛圍做好鋪墊。

上面是通過用戶行為獲取的標(biāo)簽，還有一部分是用戶物理屬性，也就是如性別、地區(qū)、客戶端、網(wǎng)絡(luò)環(huán)境等屬性，盡量收集全，并且每日收集，記錄維度以登陸時間為維度。最終行為標(biāo)簽與物理標(biāo)簽相結(jié)合，綜合展示于內(nèi)容標(biāo)簽及用戶標(biāo)簽系統(tǒng)中。之后，需要根據(jù)用戶的標(biāo)簽體系，通過算法分析用戶性格，性格會幫我們在之后的個性化產(chǎn)品中不去招惹用戶，讓每個用戶獲有滿足感。

至此，應(yīng)輸出的用戶標(biāo)簽實際為四類，屬性、興趣、關(guān)系、行為，屬性包含物理屬性和性格屬性，以上四個維度，有助于我們?nèi)轿环治鲇脩簦罱K輸出的應(yīng)是用戶動機(jī)的最大可能性猜測，猜測用戶這次想看什么類型的內(nèi)容，結(jié)合內(nèi)容體系，進(jìn)行推薦。

2.8 小結(jié)總結(jié)

本節(jié)闡述的是整個用戶體系的搭建思路，包括之前的經(jīng)典理論引用和搭建分析模型，最終到用戶分析和輸出展示形式，下面將闡述項目體系的搭建思路。

3.?項目體系

項目體系分為許多種，有商品、用戶、內(nèi)容、廣告等，本文僅以內(nèi)容作為搭建思路敘述。

3.1 內(nèi)容特征

內(nèi)容向量通常存在維數(shù)大的問題，即使去掉低頻詞和高報詞等停用詞后，仍然會有數(shù)萬維的特征留下。為了提高機(jī)器學(xué)習(xí)的效率和精度，有必要降低文本向量的維數(shù)。特征選擇是內(nèi)容降維的有效方法。

具體做法是構(gòu)造一個評估函數(shù)對特征向量中的所有特征逐一評分，選取分值高于設(shè)定闌值的特征。常用的評估函數(shù)有：文檔頻數(shù)、詞頻函數(shù)、TIFDF、期望交叉摘、CHI、信息增益、互信息等。雖然實驗表明IG和CHI等基于信息熵的方法的可以取得較好的特征選擇效果，但是計算費用高，系統(tǒng)開銷大，使用起來浪費時間和資源。因此實際應(yīng)用中，計算量較小、評估效果較好的TIFDF方法是非?？扇〉?。

并且內(nèi)容不僅是文字，仍會有圖片、視頻、語音等，對于這三者，因為維度完全不同，所以使用手段與方法也完全不同。

3.2 圖片特征

將二維平面降維手段仍是標(biāo)簽，一般稱為圖片標(biāo)注；標(biāo)注方法可以簡單分為基于模型學(xué)習(xí)的方法和基于實例檢索的方法。

基于模型學(xué)習(xí)的方法具有較高的標(biāo)注性能，但是模型訓(xùn)練的計算復(fù)雜性較高，不具備實戰(zhàn)意義?；趯嵗龣z索的方法將圖像標(biāo)注問題看作圖像檢索問題，是基于數(shù)據(jù)驅(qū)動的模型方法。所以一般選擇后者，其中算法也是層出不窮；提升準(zhǔn)確性和過濾垃圾標(biāo)簽是共同目標(biāo)，需要擇優(yōu)選擇，方法和技術(shù)已經(jīng)同樣有許多種，不多做贅述。

3.3 視頻特征

視頻為三維載體，又增加了時間性質(zhì)；常規(guī)手段有：將視頻逐一降維成二維平面，也就是等分切割，轉(zhuǎn)化為圖片標(biāo)注，即可。但是該方法成本巨大，在大量數(shù)據(jù)當(dāng)中應(yīng)用不現(xiàn)實。更加較為新興手段有視頻彈幕，彈幕是直接在視頻上用戶編輯的文字內(nèi)容，類似字幕，將每時刻彈幕內(nèi)容提取，直接把視頻變?yōu)闃?biāo)簽，按權(quán)重劃分刪除垃圾標(biāo)簽即可，較為簡單高效。

3.4 音頻特征

常見音頻一般以脫口秀、音樂為主，其中標(biāo)題提供的信息標(biāo)簽權(quán)重會非常大，但仍是有限的。所以對于脫口秀，衍生出了語音識別技術(shù)：將語音轉(zhuǎn)化為文字信息進(jìn)行標(biāo)記。對于音樂，我們只能從其它手段進(jìn)行補(bǔ)充。比如波形識別，一般音樂含有曲風(fēng)、風(fēng)格等屬性，利用音頻的波形識別技術(shù)可順利獲取相關(guān)標(biāo)簽。

3.5 評論特征

評論雖然是文字類型，但是由于評論都不可能過長，所以問題就會出現(xiàn)語義不完全，嚴(yán)重的數(shù)據(jù)稀疏問題。這里非常像微博，微博只有140個字，相對較少。所以針對微博的這種情況，也有許多新技術(shù)來進(jìn)行改進(jìn)。例如：通過拓展微博文本的特征，通過分析微博數(shù)據(jù)中的某些現(xiàn)象或特性等手段來改善數(shù)據(jù)稀疏問題；所以充分借鑒在微博領(lǐng)域中的研究成果利用，結(jié)合實際使用。

3.6 垃圾標(biāo)簽抵御

對于以上載體，不可避免的都會有垃圾標(biāo)簽的出現(xiàn)，不管是主動還是被動，所謂主動是由于識別率或技術(shù)局限性等問題，導(dǎo)致的垃圾標(biāo)簽的產(chǎn)生，對于被動更多的場景比如說是圖片的水印，視頻的廣告或是由于惡意攻擊、惡意添加等行為的產(chǎn)生，那么對于垃圾標(biāo)簽同樣有許多手段進(jìn)行相關(guān)抵御：

基于檢測的垃圾標(biāo)簽抵御，通常分為兩個階段：首先，系統(tǒng)管理員可以手動標(biāo)注垃圾標(biāo)簽或其對應(yīng)的惡意用戶，也可以由系統(tǒng)根據(jù)統(tǒng)計分析和機(jī)器學(xué)習(xí)的相關(guān)理論來自動識別出垃圾標(biāo)簽或其對應(yīng)的惡意用戶；然后，由系統(tǒng)做出響應(yīng)，這種響應(yīng)可以是在垃圾標(biāo)簽上做出標(biāo)識，也可以是直接刪除垃圾標(biāo)簽并調(diào)整搜索結(jié)果或者限制惡意用戶的權(quán)限。
基于降級的抵御，是通過降低受垃圾標(biāo)簽污染的資源在用戶搜索結(jié)果列表中排列的位置來實現(xiàn)對垃圾標(biāo)簽的抵御．利用特定的算法將那些受垃圾標(biāo)簽污染的資源排在結(jié)果列表中盡可能靠后的位置，這樣用戶就不會看到這些受污染資源。相關(guān)會有Coincidence—based模型、SpamClean模型、DSpam模型等對這種形式進(jìn)行處理。
基于預(yù)防的垃圾標(biāo)簽抵御，統(tǒng)計表明，很大一部分的垃圾標(biāo)簽來自于僵尸網(wǎng)絡(luò)中被控制的主機(jī)或者可以標(biāo)注標(biāo)簽的自動化程序，這些主機(jī)或者程序可以根據(jù)攻擊者的需要來產(chǎn)生大量垃圾標(biāo)簽，從而對社交網(wǎng)站中正常用戶的標(biāo)簽服務(wù)構(gòu)成威脅。所以該手段主要是通過對產(chǎn)生標(biāo)簽的用戶的權(quán)限進(jìn)行隱藏或者限制從而抑制垃圾標(biāo)簽的出現(xiàn)，即確保每個標(biāo)簽的產(chǎn)生都來自于自然人而不是僵尸網(wǎng)絡(luò)等．需要指出，目前基于預(yù)防的垃圾標(biāo)簽抵御方法的效果尚無法通過量化指標(biāo)來衡量，這主要是因為無法統(tǒng)計因采用了此類方法而預(yù)防成功的垃圾標(biāo)簽的數(shù)量。

最終，標(biāo)簽的抵御效果可以由如下兩個屬性進(jìn)行評價：服務(wù)執(zhí)行效率與服務(wù)可用性。

3.7 模型輸出

對于內(nèi)容標(biāo)簽，綜上有許多種方法，但是還有一條標(biāo)簽線是載體標(biāo)簽。所謂載體，純文字、純視頻、純圖片相冊、圖文、視頻文字、視頻圖片文字，主流常見的只有這三種。需要詳細(xì)的進(jìn)行展示，例如文字以千字為一檔進(jìn)行劃分，比如1000字以下、1001-2000字等，圖片以十張圖為一檔，視頻以一分鐘為一檔，可以輔助我們進(jìn)行內(nèi)容效果評估。并且進(jìn)一步結(jié)合用戶實際場景，實際情況來進(jìn)行推薦提供了又一維度。

所以最終輸出應(yīng)為內(nèi)容類型、內(nèi)容載體、內(nèi)容分類以及內(nèi)容適配場景，最終計算內(nèi)容的核心亮點，以供于貼合用戶群，結(jié)合用戶動機(jī)，實現(xiàn)用戶這次想看什么內(nèi)容的需求供給，達(dá)到轉(zhuǎn)化率最大化的目的。

3.8 小結(jié)總結(jié)

本節(jié)闡述了對于內(nèi)容標(biāo)簽的搭建體系，針對不同的元素有不同的獲取方式，其中對于垃圾標(biāo)簽的抵御也闡述相關(guān)手段和方法，最終的展現(xiàn)上仍要求可視化，對于了解某種內(nèi)容的詳細(xì)受眾用戶群，是有極大好處的，下一節(jié)將會闡述推薦流程中的核心流程，推薦環(huán)節(jié)。

詳見明天的結(jié)尾。下篇，上篇回顧《深度丨從零搭建推薦體系（上）》。

附錄3 今日頭條心理動機(jī)研究

研究模型

“今日頭條”用戶的年齡，性別等人口統(tǒng)計特征和用戶媒介偏好，自變量為“今日頭條”用戶的使用動機(jī)，中介變量為“今日頭條”用戶的使用態(tài)度，因變量為“今日頭條”用戶的使用行為。本研究的主要研究方向是利用使用態(tài)度這個中介變量研究使用動機(jī)（需求）對使用行為的影響。

控制變量

控制變量主要包括性別、年齡、教育程度、職業(yè)等人口統(tǒng)計學(xué)特征。

自變量——動機(jī)（需求）

根據(jù)“使用與滿足”理論，用戶是被看作有特定“需求”的個人，而他們接觸媒介的活動被看作是基于某種特定的需求動機(jī)來“使用媒介”，最終使這些需求得到滿足的過程。而這種特定的需求的產(chǎn)生，主要有兩個方面：一個是社會因素，另一個是個人心理因素。本研究從個人因素和社會因素出發(fā)，兼顧“今日頭條”的用戶體驗（易用性、有用性）等方面，總結(jié)了用戶使用“今日頭條”的若干動機(jī)。本調(diào)查將用戶使用今日頭條的需求分為三個維度：媒介需求，社交需求，體驗需求。

QQ截圖20160920152654

中介變量

本研究以用戶對“今日頭條”的使用態(tài)度（滿意度）為中介變量。在理性行為理論和技術(shù)接受模型（TAM）中，中介變量包括兩個方面：使用態(tài)度和行為意向。使用態(tài)度包含個人對某種使用行為所持的正面或負(fù)面的看法；行為意向反映個人從事某項行為的意愿。但在社會心理學(xué)中，“態(tài)度”界定為個體對事物的反應(yīng)方式，已經(jīng)涵蓋了行為意向的層面，通常體現(xiàn)在個體的信念，感覺或者行為傾向中?？梢?，“態(tài)度”已經(jīng)涵蓋了行為意向?qū)用妗Ｋ员狙芯恐灰允褂脩B(tài)度為中介變量，這里的“使用態(tài)度”是用戶根據(jù)對“今日頭條”的認(rèn)知和使用經(jīng)歷對“今日頭條”持有的正面或負(fù)面的看法。

QQ截圖20160920152747

因變量

因變量是“今日頭條”用戶的“使用行為”。這里的行為包括使用時長、使用頻率、使用時間等問題。

?統(tǒng)計分析

通過以下統(tǒng)計方法進(jìn)行描述和分析：

統(tǒng)計描述分析（Descriptive Statistics）：統(tǒng)計各變量的頻數(shù)、比例、標(biāo)準(zhǔn)差和頻率，來描述被測用戶對“今日頭條”的使用情況、使用動機(jī)、態(tài)度和行為等。
信度分析（Reliability Analysis）：驗證研究模型中的變量的信度分析，以衡量問卷的可靠性、一致性和穩(wěn)定性。
相關(guān)分析（Correlation Analysis）：用于分析兩個或兩組隨機(jī)變量的關(guān)系，可以檢測變量之間密切程度的一種統(tǒng)計方法。
交叉列表分析（Crosstabs）：將兩個或兩個以上有一定聯(lián)系的變量及其變量值按照一定的順序交叉排列在一張統(tǒng)計表內(nèi)，使各變量值成為不同變量的結(jié)點，從中分析變量之間的相關(guān)關(guān)系。
?結(jié)論

整體來說用戶使用今日頭條動機(jī)為新聞推送的實時性，時效性，把握了當(dāng)下的“短平快”的碎片化閱讀趨勢，信息類型以短消息、圖片、視頻為主。

從個人心理因素的角度來看，今日頭條流行的主要原因是抓住了受眾對個性化需求的心理。對用戶需求的研究結(jié)果表明，“個性化推薦”（60.79%）、“更新速度快”（60%）、“推送內(nèi)容多（45.26%）是用戶最為強(qiáng)烈的三種動機(jī)。而“互動性強(qiáng)，評論轉(zhuǎn)發(fā)收藏活躍”“操作方便閱讀舒適”“離線下載，節(jié)省流量”占比較少，說明大部分用戶不傾向于同意這是他們使用“今日頭條”的動機(jī)。

這個結(jié)論也與“今日頭條”的“個性化新聞推薦”的宣傳理念和定位相符合?！敖袢疹^條”與其他新聞客戶端相比，最大的優(yōu)勢就是它能夠精確分析用戶的閱讀興趣，并針對用戶興趣和需求對內(nèi)容做更精細(xì)的傳播，進(jìn)行個性化推薦新聞。本研究結(jié)果也正說明，用戶是基于個性化、實時性等方面的需求而選擇“今日頭條”。

本研究對“今日頭條”用戶的使用態(tài)度進(jìn)行了均值比較。用戶對“今日頭條”積極態(tài)度的認(rèn)同度均值為 3.77。從數(shù)據(jù)中看，“今日頭條”的“更新速度快”“推送內(nèi)容豐富”和“操作方便，閱讀舒適”三項特性是最被用戶所認(rèn)可的。其中，“更新速度快”為全表最高均值項3.87 分，證明“今日頭條”注重新聞時效性，滿足了用戶第一時間看到新聞事件的需求。作為用戶使用動機(jī)最強(qiáng)烈“個性化推薦精準(zhǔn)”的均值僅為 3.69，低于3.77 的水平分，可見用戶對“個性化推薦精準(zhǔn)”的認(rèn)同度不高。而此項也與動機(jī)的考察結(jié)果并不一致。

因為個性化推薦存在冷啟動的弊端，即新用戶剛開始沒有可以利用的行為信息，無法了解用戶的特點和需求，很難給出精確的推薦。所以不排除是用戶在使用初期個性化推薦并不精準(zhǔn)，但隨著使用時間增加，系統(tǒng)有了用戶的行為數(shù)據(jù)，個性化推薦會越來越精準(zhǔn)的假設(shè)。

為了驗證這個假設(shè)，本研究設(shè)計了使用態(tài)度與使用時間的交叉分析，探究是否隨著使用時間的增加，對個性化推薦的滿意度會有所提高。根據(jù)實驗數(shù)據(jù)，使用今日頭條一周以內(nèi)的用戶，對“個性化推薦精確”的滿意度均值為3.64，使用三到六個月的用戶滿意度均值為3.73，而使用一年以上的用戶滿意度均值為 3.87，滿意度均值隨著使用時間的增長而整體呈上升趨勢。可見，使用時間越長，用戶對“個性化推薦精準(zhǔn)”的滿意度越高。而且不只是“個性化推薦精準(zhǔn)”這一項，“智能搜索快速全面”“操作方便，閱讀舒適”兩項都存在隨著使用時間的增長，用戶滿意度增長的現(xiàn)象，用戶對“今日頭條”消極態(tài)度的認(rèn)同度為3.21。其中，“推廣、廣告太多”“標(biāo)題黨現(xiàn)象嚴(yán)重”“推送內(nèi)容同質(zhì)化嚴(yán)重，信息渠道變窄”三項是最被用戶所認(rèn)同的。用戶最不認(rèn)同的三項分別是“圖片過于血腥”“吐槽言辭過于激烈”“欄目劃分缺乏個性”都低于 3.21的平均水平?？梢?，“今日頭條”在監(jiān)管黃色、暴力、血腥新聞方面卓有成效。

其中“推廣、廣告太多”為全表最高均值3.47，可見用戶對“今日頭條”的“推廣、廣告太多”感受頗為明顯。根據(jù)筆者親身試驗，在“今日頭條”的信息流中每六七條新聞中會參雜一條廣告，感受還是比較強(qiáng)烈的。

同樣，本研究也將消極態(tài)度與使用時間做了交叉分析。分析得出對“推廣、廣告太多”的認(rèn)同度均值均隨著使用時間的增長而整體呈下降趨勢?？梢?，使用時間越長，越不覺得推廣、廣告太多。不排除是個性化推薦了解用戶所需，調(diào)整了廣告數(shù)量。不只是“推廣、廣告太多”這一項，其余“標(biāo)題黨現(xiàn)象嚴(yán)重”

“推送內(nèi)容同質(zhì)化嚴(yán)重，信息渠道變窄”“欄目劃分缺乏個性”“吐槽言辭過于激烈”“訂閱內(nèi)容更新不及時”“圖片過于血腥”都存在隨著使用時間的增長，用戶的認(rèn)同度整體下降的趨勢。

附錄4 推薦系統(tǒng)中的常用方法

基于內(nèi)容推薦

基于內(nèi)容的推薦是信息過濾技術(shù)的延續(xù)與發(fā)展，它是建立在項目的內(nèi)容信息上作出推薦的，而不需要依據(jù)用戶對項目的評價意見，更多地需要用機(jī) 器學(xué)習(xí)的方法從關(guān)于內(nèi)容的特征描述的事例中得到用戶的興趣資料。在基于內(nèi)容的推薦系統(tǒng)中，項目或?qū)ο笫峭ㄟ^相關(guān)的特征的屬性來定義，系統(tǒng)基于用戶評價對象的特征，學(xué)習(xí)用戶的興趣，考察用戶資料與待預(yù)測項目的相匹配程度。用戶的資料模型取決于所用學(xué)習(xí)方法，常用的有決策樹、神經(jīng)網(wǎng)絡(luò)和基于向量的表示方法等。基于內(nèi)容的用戶資料是需要有用戶的歷史數(shù)據(jù)，用戶資料模型可能隨著用戶的偏好改變而發(fā)生變化。

基于內(nèi)容推薦方法的優(yōu)點是：

不需要其它用戶的數(shù)據(jù)，沒有冷開始問題和稀疏問題。
能為具有特殊興趣愛好的用戶進(jìn)行推薦。
能推薦新的或不是很流行的項目，沒有新項目問題。
通過列出推薦項目的內(nèi)容特征，可以解釋為什么推薦那些項目。
已有比較好的技術(shù)，如關(guān)于分類學(xué)習(xí)方面的技術(shù)已相當(dāng)成熟。

缺點是要求內(nèi)容能容易抽取成有意義的特征，要求特征內(nèi)容有良好的結(jié)構(gòu)性，并且用戶的口味必須能夠用內(nèi)容特征形式來表達(dá)，不能顯式地得到其它用戶的判斷情況。

協(xié)同過濾推薦

協(xié)同過濾推薦技術(shù)是推薦系統(tǒng)中應(yīng)用最早和最為成功的技術(shù)之一。它一般采用最近鄰技術(shù)，利用用戶的歷史喜好信息計算用戶之間的距離，然后利用目標(biāo)用戶的最近鄰居用戶對商品評價的加權(quán)評價值來預(yù)測目標(biāo)用戶對特定商品的喜好程度，系統(tǒng)從而根據(jù)這一喜好程度來對目標(biāo)用戶進(jìn)行推薦。協(xié)同過濾最大優(yōu) 點是對推薦對象沒有特殊的要求，能處理非結(jié)構(gòu)化的復(fù)雜對象，如音樂、電影。

協(xié)同過濾是基于這樣的假設(shè)：為一用戶找到他真正感興趣的內(nèi)容的好方法是首先找到與此用戶有相似興趣的其他用戶，然后將他們感興趣的內(nèi)容推薦給此用戶。其基本思想非常易于理解，在日常生活中，我們往往會利用好朋友的推薦來進(jìn)行一些選擇。協(xié)同過濾正是把這一思想運用到電子商務(wù)推薦系統(tǒng)中來，基于其他用戶對某一內(nèi) 容的評價來向目標(biāo)用戶進(jìn)行推薦。

基于協(xié)同過濾的推薦系統(tǒng)可以說是從用戶的角度來進(jìn)行相應(yīng)推薦的，而且是自動的，即用戶獲得的推薦是系統(tǒng)從購買模式或瀏覽行為等隱式獲得的，不需要用戶努力地找到適合自己興趣的推薦信息，如填寫一些調(diào)查表格等。

和基于內(nèi)容的過濾方法相比，協(xié)同過濾具有如下的優(yōu)點：

能夠過濾難以進(jìn)行機(jī)器自動內(nèi)容分析的信息，如藝術(shù)品，音樂等。
共享其他人的經(jīng)驗，避免了內(nèi)容分析的不完全和不精確，并且能夠基于一些復(fù)雜的，難以表述的概念（如信息質(zhì)量、個人品味）進(jìn)行過濾。
有推薦新信息的能力?？梢园l(fā)現(xiàn)內(nèi)容上完全不相似的信息，用戶對推薦信息的內(nèi)容事先是預(yù)料不到的。這也是協(xié)同過濾和基于內(nèi)容的過濾一個較大的差別，基于內(nèi)容的過濾推薦很多都是用戶本來就熟悉的內(nèi)容，而協(xié)同過濾可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。
能夠有效的使用其他相似用戶的反饋信息，較少用戶的反饋量，加快個性化學(xué)習(xí)的速度。

雖然協(xié)同過濾作為一種典型的推薦技術(shù)有其相當(dāng)?shù)膽?yīng)用，但協(xié)同過濾仍有許多的問題需要解決。最典型的問題有稀疏問題和可擴(kuò)展問題。

基于關(guān)聯(lián)規(guī)則推薦

基于關(guān)聯(lián)規(guī)則的推薦是以關(guān)聯(lián)規(guī)則為基礎(chǔ)，把已購商品作為規(guī)則頭，規(guī)則體為推薦對象。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)不同商品在銷售過程中的相關(guān)性，在零售業(yè)中已經(jīng)得到了成功的應(yīng)用。管理規(guī)則就是在一個交易數(shù)據(jù)庫中統(tǒng)計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y，其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會同時購買面包。

算法的第一步關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)最為關(guān)鍵且最耗時，是算法的瓶頸，但可以離線進(jìn)行。其次，商品名稱的同義性問題也是關(guān)聯(lián)規(guī)則的一個難點。

基于效用推薦

基于效用的推薦是建立在對用戶使用項目的效用情況上計算的，其核心問題是怎么樣為每一個用戶去創(chuàng)建一個效用函數(shù)，因此，用戶資料模型很大程度上是由系統(tǒng)所采用的效用函數(shù)決定的?；谛в猛扑]的好處是它能把非產(chǎn)品的屬性，如提供商的可靠性和產(chǎn)品的可得性等考慮到效用計算中。

基于知識推薦

基于知識的推薦在某種程度是可以看成是一種推理技術(shù)，它不是建立在用戶需要和偏好基礎(chǔ)上推薦的?；谥R的方法因它們所用的功能知識不同而有明顯區(qū)別。效用知識是一種關(guān)于一個項目如何滿足某一特定用戶的知識，因此能解釋需要和推薦的關(guān)系，所以用戶資料可以是任何能支持推理的知識結(jié)構(gòu)，它可以是用戶已經(jīng)規(guī)范化的查詢，也可以是一個更詳細(xì)的用戶需要的表示。

組合推薦

由于各種推薦方法都有優(yōu)缺點，所以在實際中，組合推薦經(jīng)常被采用。研究和應(yīng)用最多的是內(nèi)容推薦和協(xié)同過濾推薦的組合。最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法去產(chǎn)生一個推薦預(yù)測結(jié)果，然后用某方法組合其結(jié)果。盡管從理論上有很多種推薦組合方法，但在某一具體問題中并不見得都有效，組合推薦一個最重要原則就是通過組合后要能避免或彌補(bǔ)各自推薦技術(shù)的弱點。

在組合方式上，有研究人員提出了七種組合思路：

加權(quán)：加權(quán)多種推薦技術(shù)結(jié)果。
變換：根據(jù)問題背景和實際情況或要求決定變換采用不同的推薦技術(shù)。
混合：同時采用多種推薦技術(shù)給出多種推薦結(jié)果為用戶提供參考。
特征組合：組合來自不同推薦數(shù)據(jù)源的特征被另一種推薦算法所采用。
層疊：先用一種推薦技術(shù)產(chǎn)生一種粗糙的推薦結(jié)果，第二種推薦技術(shù)在此推薦結(jié)果的基礎(chǔ)上進(jìn)一步作出更精確的推薦。
特征擴(kuò)充：一種技術(shù)產(chǎn)生附加的特征信息嵌入到另一種推薦技術(shù)的特征輸入中。
元級別：用一種推薦方法產(chǎn)生的模型作為另一種推薦方法的輸入。

中篇，完。