今日頭條:AI助力用戶推薦(下篇)
在上篇中主要講了AI助力實現(xiàn)智能推薦的原理流程和方法,在下篇中筆者將通過上手操作,來討論具體落地的方法。
本篇筆者選擇今日頭條中的13個類別的信息作為上手對象,如:時尚、旅游、美食、育兒、財經(jīng)、圖片、探索、娛樂、搞笑、直播、體育、科學等,分別通過抽取粉絲數(shù)超過百萬以上的用戶最近的文章、用戶標簽和分享的圖像,最終在13個類別上獲取了353個用戶的ID號和URL,共爬取13個類別的600 382張圖像,118 421條文章和 2378個用戶標簽作為數(shù)據(jù)集;然而13個類別的2378個用戶標簽中有1110個標簽重復(fù),所以刪除重復(fù)之后,最終得到1286個不重復(fù)的用戶標簽。
由于本篇筆者的目的在于展示AI產(chǎn)品如何上手,so“探討用戶分享圖、文章和用戶標簽中的語義概念是否能夠表征用戶的興趣傾向,并比較單模型數(shù)據(jù)和多模型數(shù)據(jù)的推薦效果”,因此將353個用戶分為13個類別,其中圖像、文章和標簽數(shù)據(jù)如下圖:
文章數(shù)據(jù)處理過程如下:
主要是將13個類別的353個用戶的文本數(shù)據(jù)獲取后。
首先:對每個類別用戶的文本進行去停用詞;
停用詞是指在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。
接著:再進行分詞,筆者所采用的是Python里的jieba分詞,分詞完畢后對文章進行深度學習,然后得出每個用戶下所有文章的64維特征向量,生成353個用戶文章的特征向量;
標簽數(shù)據(jù)處理:
再對用戶標簽數(shù)據(jù)處理過程主要是將13個類別的353個用戶的2378個用戶標簽數(shù)據(jù)獲取后,將重復(fù)的標簽刪除,最終得到 1286 個興趣標簽,1286 個興趣標簽通過程序生成1286 維度詞袋模型;
圖像數(shù)據(jù)處理:
圖像數(shù)據(jù)處理主要使用殘差網(wǎng)絡(luò)(ResNET),ResNet模型獲得過圖像識別大賽冠軍,通過深度殘差網(wǎng)絡(luò)對圖像進行識別,在深度和精度上比傳統(tǒng)的CNN可以獲得更好的語義信息表達。筆者通過使用ResNet模型來構(gòu)建50層的神經(jīng)網(wǎng)絡(luò),獲取1000維特征向量。
最后,將13個興趣類別的3種數(shù)據(jù)類型的特征向量進行組合,每位用戶生成2350維特征向量。
推薦系統(tǒng)配置設(shè)置:
不同數(shù)量好友的推薦,分析比較它們的精確率(Preci?sion)、召回率(Recall)和F1 值(F1-measure)變化情況。
(1)精確率測試結(jié)果與分析。
七組數(shù)據(jù)對比測試在不同好友推薦數(shù)目的情況下的精確率(Precision)數(shù)據(jù)記錄,其相應(yīng)的數(shù)據(jù)對比情況如下圖:
筆者根據(jù)上圖測試的精確率可以得出以下三條結(jié)論:
①測試七文本、標簽和圖像三類數(shù)據(jù)的融合推薦效果及其推薦精確率要高于其它單模數(shù)據(jù)或其它組合數(shù)據(jù)推薦;但測試四基于文本和標簽的融合推薦精確率和文本、標簽和圖像三類數(shù)據(jù)的融合推薦精確率相近似,相比其它的單模數(shù)據(jù)和多模數(shù)據(jù)的融合推薦效果要好;
②基于圖像的好友推薦精確最低,說明圖像在高維特征向量表達用戶興趣還比較模糊,但圖像特征融合標簽特征效果會好于其它單模特征;
③隨著推薦好友數(shù)量的增加,單模和多模數(shù)據(jù)的推薦效果的精確率都在逐步降低。
(2)七組測試數(shù)據(jù)的召回率測試結(jié)果與分析。
七組數(shù)據(jù)對比測試在不同好友推薦數(shù)目的情況下的召回率(Recall)數(shù)據(jù)記錄,其相應(yīng)的數(shù)據(jù)對比情況如下圖:
筆者根據(jù)上圖測試召回率可以得出以下三條結(jié)論:
①測試七文本、標簽和圖像三類數(shù)據(jù)融合推薦效果的召回率要高于其它單模數(shù)據(jù)或其它組合數(shù)據(jù)的召回率;但測試四基于文本和標簽的融合推薦效果的召回率和文本、標簽和圖像三類數(shù)據(jù)的融合推薦效果的召回率相近似,相比其它的單模數(shù)據(jù)和多模數(shù)據(jù)融合召回率效果要好;
②測試三基于圖像的好友推薦召回率最低,說明圖像在高維特征向量表達用戶興趣還比較模糊,但圖像特征融合標簽特征效果會好于其它單模特征;
③隨著推薦好友數(shù)量的增加,單模和多模數(shù)據(jù)的召回率都在逐步增高。
(3)七組測試數(shù)據(jù)的F1值結(jié)果與分析。
七組數(shù)據(jù)對比測試在不同好友推薦數(shù)目的情況下的F1值(F1-Measure)數(shù)據(jù)記錄,其相應(yīng)的數(shù)據(jù)對比情況如下圖:
筆者根據(jù)測試的F1值可以得出以下三條結(jié)論:
①測試七文本、標簽和圖像三類數(shù)據(jù)的融合推薦效果及其推薦F1值要高于其它單模數(shù)據(jù)或其它組合數(shù)據(jù)推薦;但基于文本和標簽的融合推薦F1值和文本、標簽和圖像三類數(shù)據(jù)的融合推薦F1值相近似,相比其它的單模數(shù)據(jù)和多模數(shù)據(jù)的融合推薦效果要好;
②基于圖像的好友推薦F1值確最低,說明圖像在高維特征向量表達用戶興趣還比較模糊,但圖像特征融合標簽特征效果會好于其它單模特征;
③隨著推薦好友數(shù)量的增加,單模和多模數(shù)據(jù)的推薦效果的F1值都在逐步增高,但這種增高是隨著好友的數(shù)量增加而緩慢增高。
總結(jié):
在今日頭條的產(chǎn)品落地中不僅將用戶的文本、標簽和圖像特征融合進行推薦,也會將將用戶的屬性特征和社交關(guān)系特征融合進行好友推薦;
另外,用戶的興趣是多樣性、可變性的,有時推薦系統(tǒng)還會加入情境感知信息,如:時間、情感、場景等。這也是今日頭條產(chǎn)品重點迭代的一個方向。
最后:今日頭條也好、抖音也好、多閃也好都是字節(jié)跳動旗下的明星產(chǎn)品,均為AI賦能助力的產(chǎn)品相信推薦系統(tǒng)會越來越融合跨行業(yè)和跨平臺的推薦打法,突破數(shù)據(jù)孤島。具體系統(tǒng)的知識可以見筆者的暢銷書《AI賦能:AI重新定義產(chǎn)品經(jīng)理》。
升華在以上例子中AI產(chǎn)品經(jīng)理應(yīng)該做的事是:
1. 停用詞庫的構(gòu)建。
2. 明白關(guān)鍵詞術(shù)語和意義例如:精確率、召回率及F1值,精確率(Precision),查準率。即正確預(yù)測為正的占全部預(yù)測為正的比例。個人理解:真正正確的占所有預(yù)測為正的比例。召回率(Recall),查全率。即正確預(yù)測為正的占全部實際為正的比例。個人理解:真正正確的占所有實際為正的比例。F1值。F1值為算數(shù)平均數(shù)除以幾何平均數(shù)。
3. 研究定義產(chǎn)品的分析對象、分析指標、能夠應(yīng)用分析結(jié)果。
如果你想系統(tǒng)化入門AI產(chǎn)品經(jīng)理,掌握AI產(chǎn)品經(jīng)理的落地工作方法,戳這里>http://996.pm/7bjab
#專欄作家#
連詩路,公眾號:LineLian。人人都是產(chǎn)品經(jīng)理專欄作家,《產(chǎn)品進化論:AI+時代產(chǎn)品經(jīng)理的思維方法》一書作者,前阿里產(chǎn)品專家,希望與創(chuàng)業(yè)者多多交流。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
花了5K大洋跟LineLian老師交流過AI產(chǎn)品三視圖 正視 側(cè)視和 俯視來看人工智能產(chǎn)品,受益良多,老師不僅是AI技術(shù)和產(chǎn)品設(shè)計和算法邏輯清晰,更多的是指導我們做產(chǎn)品的一種綜合素質(zhì)極高的模式
不錯不錯。