月薪3K和月薪3W的運(yùn)營人之間,隔著點(diǎn)算法原理
編輯導(dǎo)語:算法這個(gè)概念近些年一直很熱,互聯(lián)網(wǎng)從業(yè)者也一定并不陌生。當(dāng)今算法分發(fā)已經(jīng)是各大信息平臺(tái)、社交軟件、搜索引擎、瀏覽器的標(biāo)配。算法代表著用系統(tǒng)的方法描述解決問題的策略機(jī)制,運(yùn)營人只有了解平臺(tái)的算法以及對(duì)于內(nèi)容與流量的分發(fā)策略,才可以根據(jù)自己的定位制定出相應(yīng)的運(yùn)營策略。
本文大綱:
一、背景
二、算法推薦系統(tǒng)的兩個(gè)核心
- 內(nèi)容標(biāo)簽
- 用戶標(biāo)簽
三、如何衡量推薦系統(tǒng)的好壞
四、總結(jié)
關(guān)鍵詞:內(nèi)容標(biāo)簽(語義標(biāo)簽、實(shí)體標(biāo)簽)、用戶標(biāo)簽、算法原理、運(yùn)營策略。
一、背景
在紙媒時(shí)代,消費(fèi)者對(duì)于信息和內(nèi)容的獲取處于十分被動(dòng)且匱乏的狀態(tài)。一張報(bào)紙、一份雜志,雖然“千人一面”,但許多人仍然愛不釋手,看了又看。
隨著互聯(lián)網(wǎng)時(shí)代(特別是移動(dòng)互聯(lián)網(wǎng))的到來,信息如同《三體》里“技術(shù)爆炸”的概念一般,呈現(xiàn)出“信息爆炸”的狀態(tài)。
每天以EB為單位的信息量誕生在互聯(lián)網(wǎng)的每個(gè)角落,預(yù)計(jì)2025年全球每天產(chǎn)生的數(shù)據(jù)量將達(dá)到491EB(1 EB=1024 PB=1048576 TB)。
在這種情況下,消費(fèi)者對(duì)于信息的獲取變得更加的主動(dòng)且豐富——但豐富并不意味著有效。
紙媒時(shí)代尚且有專業(yè)的編輯對(duì)內(nèi)容進(jìn)行篩選、排版后“分發(fā)”給消費(fèi)者。但對(duì)于互聯(lián)網(wǎng)產(chǎn)品來說,即使內(nèi)容再豐富,用戶如果不感興趣也是無效內(nèi)容。
要知道“效率”是商業(yè)社會(huì)的本質(zhì)之一。低效意味著隨時(shí)有可能落后或被淘汰。為了解決這一問題, 淘寶最早再在2013年提出“千人千面”的概念。
依托淘寶網(wǎng)十年發(fā)展積累下來的龐大數(shù)據(jù)庫,從細(xì)分類目中抓取那些與買家興趣相匹配的商品,進(jìn)行優(yōu)先展現(xiàn)。
而每個(gè)在淘寶網(wǎng)上購買或是瀏覽過商品的消費(fèi)者,都會(huì)被平臺(tái)打上標(biāo)簽,比如年齡、地域、客單價(jià)、收藏偏好等。標(biāo)簽的不同,在千人千面模式下用戶所看到的產(chǎn)品就會(huì)有所差異。
更有效率的內(nèi)容分發(fā)方式,因此由野蠻生長進(jìn)入到精細(xì)化運(yùn)營的時(shí)代。
到了以“算法驅(qū)動(dòng)”為核心的張一鳴手里,今日頭條、抖音等產(chǎn)品更是在“算法驅(qū)動(dòng)”理念下飼養(yǎng)出來的洪水猛獸。
而如今,算法分發(fā)已經(jīng)幾乎是所有搜索引擎、瀏覽器、資訊軟件、內(nèi)容社區(qū)、社交軟件等產(chǎn)品的標(biāo)配。如阿里內(nèi)容運(yùn)營專家社招崗位里,便要求能夠聯(lián)動(dòng)內(nèi)容生產(chǎn)、算法上下游去做相應(yīng)的策略執(zhí)行:
而運(yùn)營專家這個(gè)級(jí)別基本都是P7起步,年薪50W往上:
因此作為一名運(yùn)營人,即使不用動(dòng)手去寫編程算法,但了解相關(guān)算法知識(shí)、懂得相關(guān)推薦機(jī)制背后的原理,則是成長進(jìn)階路上不得不點(diǎn)亮的技能點(diǎn)之一。
二、算法推薦系統(tǒng)的兩個(gè)核心:內(nèi)容標(biāo)簽與用戶標(biāo)簽
算法原理本質(zhì)上用一句大白話就可以解釋:讓喜歡看妹子的用戶看到含有妹子的內(nèi)容。但在現(xiàn)實(shí)環(huán)境中,放眼互聯(lián)網(wǎng),能把這句話做好的公司其實(shí)沒幾個(gè)。
1. 為什么抖音讓人如此上癮?
許多人或許會(huì)有這樣的體驗(yàn):在不同的場(chǎng)景下(在家、地鐵、公司)、不同的時(shí)間點(diǎn)(早上、中午、晚上),即使是同類型的內(nèi)容(如電影),實(shí)際上所接收到的內(nèi)容也略有差別。
例如白天大多會(huì)收到比較幽默的內(nèi)容,而到了晚上則會(huì)收到略帶懸疑的影視剪輯片段等;而無論是什么時(shí)候打開抖音,都能讓用戶沉浸其中,似乎感覺不到時(shí)間的流逝,往往一下子能過去一兩個(gè)小時(shí)。
你會(huì)發(fā)現(xiàn)抖音似乎很懂你,因?yàn)榻o你推送的內(nèi)容全都是你喜歡看的。
拋開抖音的產(chǎn)品設(shè)計(jì)、沉浸式消費(fèi)體驗(yàn)、短平快的內(nèi)容節(jié)奏等,這其中還便涉及到算法推薦機(jī)制和運(yùn)營策略等因素。
2. 給內(nèi)容打標(biāo),真的有那么簡(jiǎn)單嗎?
給標(biāo)簽定義難,給內(nèi)容打標(biāo)也難。
在給一篇內(nèi)容打上標(biāo)簽之前,首先需要做的是給標(biāo)簽做定義。即講清楚什么是蘋果,而不是把蘋果叫成梨。
一篇內(nèi)容通常包括一級(jí)分類、二級(jí)分類、三級(jí)分類、標(biāo)簽幾個(gè)層次。如動(dòng)漫>日漫>火影忍者>鳴人 ,對(duì)于這些具有普遍性認(rèn)知的分類跟標(biāo)簽來說,還比較好下定義。
但是對(duì)于搞笑、美女這樣的標(biāo)簽,通常因人而異,因?yàn)槊總€(gè)人的笑點(diǎn)不同、審美不同。到底什么內(nèi)容才算好笑、多好看才算美女?
蘿卜青菜各有所愛,打標(biāo)還沒開始,就先卡在定義上面,這里其實(shí)就涉及到兩個(gè)概念——實(shí)體標(biāo)簽跟語義標(biāo)簽:
1)實(shí)體標(biāo)簽
廣州就是廣州、上海就是上海;馬云就是馬云,淘寶就是淘寶。他們都是確定的實(shí)體,通常在不同人那里不會(huì)產(chǎn)生太大的歧義。
2)語義標(biāo)簽
如沙雕、美女、奇葩等詞,并沒有確定的指定對(duì)象,在不同人那里會(huì)有不同的認(rèn)知,因此打標(biāo)難點(diǎn)通常出現(xiàn)在語義標(biāo)簽的定義上面。
語義標(biāo)簽的推薦效果是檢驗(yàn)一個(gè)公司NLP(自然語言處理)技術(shù)水平的試金石,根據(jù)不同公司業(yè)務(wù)能力或業(yè)務(wù)需求的不同,對(duì)標(biāo)簽顆粒度的要求也不同。
比如有的公司拆分到火影忍者就不往下拆了,直接把這個(gè)詞當(dāng)作最小顆粒度的標(biāo)簽;所有涉及到這部動(dòng)漫的內(nèi)容都可以打上這個(gè)“火影忍者”標(biāo)簽,但是難免有種一刀切的感覺,對(duì)后續(xù)的運(yùn)營工作也有影響。
比如有的用戶想看、或者想搜索“鳴人”,結(jié)果推送的、搜索出來的全都是“火影忍者”里面的其他人;而有的公司則繼續(xù)往下拆:火影忍者>鳴人、佐助、小櫻等實(shí)體標(biāo)簽。
因此可以看得出:標(biāo)簽顆粒度越細(xì),推薦的內(nèi)容越精準(zhǔn),同時(shí)所需要投入的資源更大。
OK,即使把整個(gè)公司的打標(biāo)團(tuán)隊(duì)拉到一個(gè)會(huì)議室里面,大家通過統(tǒng)一培訓(xùn)、講解,一個(gè)月后大家終于對(duì)什么是沙雕、什么算美女有了一個(gè)統(tǒng)一的認(rèn)知,審美逐漸相同。
那么打標(biāo)就可以順利開展了嗎?NO!
讓我們先喝口水緩一緩,然后再往下繼續(xù)聊。
(三)用戶標(biāo)簽:可能是最難搞的部分
1. 用戶口味就像個(gè)難哄的女朋友
比內(nèi)容標(biāo)簽難度更大的便是用戶標(biāo)簽,因?yàn)榛鹩叭陶呔褪腔鹩叭陶撸坏┐蛏线@個(gè)內(nèi)容標(biāo)簽,它就不會(huì)變成海賊王。
內(nèi)容標(biāo)簽尚且可以通過人工打標(biāo)+機(jī)器訓(xùn)練的方式進(jìn)行。
用戶不一樣,可能這個(gè)月他喜歡看火影忍者,算法推薦機(jī)制也給他匹配了相關(guān)的內(nèi)容。
但是下個(gè)月他可能因?yàn)榕笥淹碌耐扑]開始看海賊王了,如果算法還沒反應(yīng)過來,繼續(xù)給他推送火影忍者的相關(guān)內(nèi)容,此時(shí)這些內(nèi)容對(duì)他來說便是無效內(nèi)容,從而影響了內(nèi)容的分發(fā)效率。
好比胡蘿卜一直是胡蘿卜,但是用戶的口味卻一直在變化。今天想喝湯,明天想吃肉。
這里其實(shí)涉及到<推薦窄化>的問題,算法機(jī)制越差的產(chǎn)品,其推薦的內(nèi)容越容易出現(xiàn)窄化。
如不小心點(diǎn)擊了幾篇文章,算法便默認(rèn)你喜歡這一類內(nèi)容,此后便一直推送相關(guān)信息,無法做到根據(jù)用戶的口味變化進(jìn)行靈活更迭。
盡管在這個(gè)時(shí)代,無論使用哪一款內(nèi)容產(chǎn)品,都不可避免的會(huì)出現(xiàn)“信息繭房”的現(xiàn)象,但成熟的NLP技術(shù)與初級(jí)之間,實(shí)際的產(chǎn)品體驗(yàn)效果仍是天差地別。
2. 掌握用戶的基本信息
在做用戶標(biāo)簽之前,需要先掌握跟用戶相關(guān)的信息,通常包括性別、年齡、地點(diǎn)、興趣偏好等:
- 性別有助于分發(fā)性別屬性較明顯的內(nèi)容:如給男生推送體育、給女生推送美容護(hù)膚;
- 年齡也同理:給年輕人推送動(dòng)漫、游戲等內(nèi)容,給老年人推送養(yǎng)生、保健信息等;
- 地點(diǎn)則用于推送與區(qū)域熱點(diǎn)相關(guān)的信息:如給上海用戶推送上海突發(fā)新聞、北京限行對(duì)于廣州用戶似乎沒有多大影響。
以上三者通常可以通過用戶自動(dòng)填寫、授權(quán)訪問位置信息的方式獲取,且不會(huì)有太大的變動(dòng)。而對(duì)于用戶興趣偏好,如上所說,則是做用戶標(biāo)簽的難點(diǎn)所在。
獲取用戶興趣偏好采用的方式是根據(jù)用戶消費(fèi)過的內(nèi)容匹配相應(yīng)的標(biāo)簽,通常采取以下幾種方式進(jìn)行定位:
- 過濾噪聲:如用戶被標(biāo)題黨內(nèi)容吸引進(jìn)去,但是停留時(shí)間過段,則說明用戶對(duì)該內(nèi)容所綁定的標(biāo)簽不感興趣,以此來過濾標(biāo)題黨;
- 熱點(diǎn)降權(quán):對(duì)一些社會(huì)熱點(diǎn)、突發(fā)新聞(如某明星出軌),雖然短時(shí)間內(nèi)用戶瀏覽了相關(guān)信息,但并不能說明該用戶一定對(duì)“娛樂”內(nèi)容特別感興趣,需要對(duì)該用戶的“娛樂”興趣偏好進(jìn)行降權(quán)處理;
- 時(shí)間衰減:如上所說,用戶的興趣會(huì)發(fā)生偏移,因此推送策略需要更偏向于新的用戶行為;
- 懲罰展現(xiàn):如果一篇推薦給用戶的文章沒有被點(diǎn)擊,則該內(nèi)容的相關(guān)特征(如內(nèi)容分類、標(biāo)簽)權(quán)重會(huì)被降低。
例如新注冊(cè)用戶(女,28歲,上海)在刷抖音時(shí),會(huì)采用A-A、A-B的方式進(jìn)行測(cè)試。
首先連續(xù)推送兩條影視剪輯內(nèi)容(A-A),用戶都完整觀看并有點(diǎn)贊、評(píng)論等操作;其次推送影視剪輯后推送母嬰內(nèi)容(A-B),用戶只觀看了影視剪輯內(nèi)容,卻劃走了母嬰內(nèi)容。
那么則說明用戶對(duì)“影視剪輯”這一內(nèi)容的興趣偏好度較高,對(duì)“母嬰”標(biāo)簽內(nèi)容興趣偏好較低。
3. 不同內(nèi)容類型的推薦權(quán)重
我們都知道對(duì)于綜合型平臺(tái)而言,內(nèi)容通常不止一種類型,如今日頭條便包含了長圖文、小視頻、短視頻、問答、微頭條等幾種不同形態(tài)的內(nèi)容。
即使是同一個(gè)標(biāo)簽,如“美女”,不同內(nèi)容類型的推薦權(quán)重是否一樣?還是給經(jīng)??葱∫曨l的用戶優(yōu)先推送相關(guān)內(nèi)容?這也是算法推薦機(jī)制需要考慮的問題。
而不同產(chǎn)品形態(tài)對(duì)于內(nèi)容類型的推薦權(quán)重也不同,如B站首頁對(duì)于短視頻的推薦權(quán)重通常高于小視頻的推薦權(quán)重。
三、如何衡量推薦系統(tǒng)的好壞
內(nèi)容推薦的準(zhǔn)不準(zhǔn),通常可以直接從數(shù)據(jù)上去分析。CTR(點(diǎn)擊率)、消費(fèi)時(shí)長、點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)數(shù)等“可量化指標(biāo)”,如Y=F(X1,X2,X3),評(píng)論數(shù)的影響權(quán)重通常大于點(diǎn)贊權(quán)重,不同平臺(tái)由于產(chǎn)品差異對(duì)于參數(shù)的權(quán)重設(shè)置也有所不同。
而不同的用戶因其賬號(hào)“置信度”的差異,即使點(diǎn)贊了同一條內(nèi)容,對(duì)該內(nèi)容的影響權(quán)重也有差異:如知乎大V點(diǎn)贊跟普通賬號(hào)點(diǎn)贊是明顯不一樣的。
但有時(shí)數(shù)據(jù)也有缺陷,如對(duì)于低俗、標(biāo)題黨、涉黃內(nèi)容,如果時(shí)間內(nèi)吸引了大量用戶點(diǎn)擊瀏覽,那么算法能判定其為好內(nèi)容,并加大推送量嗎?
——答案顯然是否定的。
通常需要打壓降權(quán)的內(nèi)容主要有以下幾種:
- 廣告、低質(zhì)搬運(yùn)內(nèi)容打壓;
- 涉黃、低俗惡心內(nèi)容打壓;
- 標(biāo)題黨、低質(zhì)賬號(hào)內(nèi)容降權(quán)等。
因此基社會(huì)責(zé)任感和政策法規(guī)等因素,則需要對(duì)該部分內(nèi)容進(jìn)行打壓、降權(quán),而對(duì)重點(diǎn)時(shí)事新聞進(jìn)行置頂強(qiáng)插。
而這些都是算法無法獨(dú)立完成的,需要運(yùn)營配合進(jìn)行,許多資訊平臺(tái)都會(huì)有專門的首頁運(yùn)營小組對(duì)內(nèi)容進(jìn)行人工干預(yù)。
許多APP日常通知欄PUSH的內(nèi)容也是采取算法+人工的方式進(jìn)行推送的。
四、總結(jié)
回到開頭所說:要讓喜歡看妹子的用戶看到含有妹子的內(nèi)容。這句如此簡(jiǎn)單的話想要實(shí)現(xiàn)它,需要做到:
1. 內(nèi)容標(biāo)簽的準(zhǔn)確定義、準(zhǔn)確打標(biāo)
因?yàn)椴煌娜藢?duì)于同一個(gè)語義標(biāo)簽會(huì)有不相同的認(rèn)知。
2. 用戶標(biāo)簽的準(zhǔn)確匹配
清楚用戶對(duì)于哪種“妹子”興趣偏好度更高:是長發(fā)妹子?還是短發(fā)妹子?是雙眼皮?還是單眼皮?南方人還是北方人等等顆粒度更細(xì)的拆分。
用戶標(biāo)簽是建立在內(nèi)容標(biāo)簽打的足夠準(zhǔn)確的前提條件之上的,一步錯(cuò)則步步錯(cuò)。如果內(nèi)容標(biāo)簽無法準(zhǔn)確判斷,那么基于內(nèi)容標(biāo)簽建立起來的用戶標(biāo)簽也是不可信的。
3. 算法訓(xùn)練
要想訓(xùn)練機(jī)器能夠自動(dòng)打標(biāo),通常一個(gè)“標(biāo)簽”就需要訓(xùn)練幾個(gè)星期的時(shí)間。
通常采用抓取標(biāo)題關(guān)鍵詞的方式打上內(nèi)容標(biāo)簽,但有時(shí)標(biāo)題與文章或視頻里面所有表達(dá)的內(nèi)容其實(shí)有很大出入,因此打上的標(biāo)簽很有可能是不準(zhǔn)確的,需要人工進(jìn)行復(fù)核,判斷其準(zhǔn)確率。
4. 內(nèi)容源供給
即使內(nèi)容標(biāo)簽跟用戶標(biāo)簽都打的準(zhǔn)、算法訓(xùn)練的也足夠牛X,那么內(nèi)容夠不夠?這又是一個(gè)靈魂拷問。
如許多用戶都喜歡看“長發(fā)、雙眼皮、南方妹子”的相關(guān)內(nèi)容,但是“內(nèi)容庫”里該類型的內(nèi)容并不多,推送了幾條之后便開始重復(fù)推送,用戶都看膩了。
這時(shí)運(yùn)營策略上便需要配合算法做出相應(yīng)的調(diào)整和內(nèi)容引入、擴(kuò)充。光看到上面這些就已經(jīng)讓人頭大了,然而還沒完:
- 上游相應(yīng)的內(nèi)容生產(chǎn)者是誰?
- 需要生產(chǎn)多少內(nèi)容才能滿足供給?
- 新增的內(nèi)容對(duì)于現(xiàn)有其他品類的內(nèi)容會(huì)有什么影響?
- 不同等級(jí)的內(nèi)容創(chuàng)作者該如何分潤?
以及內(nèi)容從生產(chǎn)、入庫、審核、打標(biāo)、分發(fā)各個(gè)環(huán)節(jié)折損情況如何優(yōu)化?以上這些都是運(yùn)營工作者在實(shí)際工作中需要不斷進(jìn)行摸索與探究的問題。
本文由 @深刻運(yùn)營 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels,基于 CC0 協(xié)議
還行