互聯(lián)網(wǎng)時代最主要的三種獲取信息方式
搜索、推薦和廣告是互聯(lián)網(wǎng)時代最主要的三種獲取信息方式。但搜索、推薦和廣告架構(gòu)能統(tǒng)一嗎?就此,本文作者將具體來分析。
搜索、推薦和廣告是互聯(lián)網(wǎng)時代最主要的三種獲取信息方式。如果你了解三個系統(tǒng)的具體實現(xiàn),甚至自己還分別親手做過,那么你應(yīng)該有一種模模糊糊的印象:似乎有些底層的技術(shù)和數(shù)據(jù)是可以共享的啊,但是為什么我們公司是分屬三個不同的團(tuán)隊在搞呢?有時候似乎還要打個架什么的。
如果你有這個模模糊糊的印象,那么我告訴你:你不是一個人!Hector Molina在Recsys’14上就提出了將搜索、推薦、廣告三合一的觀點(diǎn)[1]。同時,在國內(nèi)的微博上,也因此掀起了一些討論[2]。微博上的討論先按下不表,我們先來看看為什么三合一是一種可能的趨勢?如果要合,又有哪些困難呢?
不同與相似
搜索,推薦和廣告本質(zhì)上都在解決信息過載的問題,各自解決的手段、目標(biāo)不相同,各自誕生在產(chǎn)品生命周期不同階段,以至于系統(tǒng)實現(xiàn)不盡相同。
從幾個維度對比一下,看看他們不同和相同在哪?
搜索要解決的是精確快速找到想要的結(jié)果。最重要的目標(biāo)是降低延遲和提高相關(guān)性。搜索更關(guān)注內(nèi)容消費(fèi)者,用雙手讓他們爽。搜索引擎不會像社交網(wǎng)站或資訊網(wǎng)站那樣變成time killer,人們依賴搜索而不沉迷搜索就與搜索引擎的目標(biāo)有關(guān)。在搜索解決用戶的信息獲取需求時,很少給予用戶一些驚喜,這也不是搜索的目的,也不會隨隨便便地利用集體智慧去擴(kuò)充一些不那么直接相關(guān)的結(jié)果。
推薦系統(tǒng)則不同,首先很少有靠推薦系統(tǒng)撐起一款產(chǎn)品,大都是起一個“錦上添花”的作用,好的推薦系統(tǒng)都會變成一個time killer,讓用戶走進(jìn)去就不想出來那是墜吼的。推薦系統(tǒng)通常不必須要明確表達(dá)需求的“query”,因此在給出的結(jié)果中就有很多發(fā)揮的余地,可以給用戶制造一些驚喜,這一點(diǎn)和搜索很不一樣。
根據(jù)策略不同,推薦系統(tǒng)有不同的實現(xiàn)方式。比如基于內(nèi)容的推薦,很接近一個搜索引擎,實際上很多推薦引擎底層的技術(shù)實現(xiàn),尤其是數(shù)據(jù)存儲上大量借鑒了搜索相關(guān)技術(shù),比如按照興趣標(biāo)簽對推薦候選池做倒排索引。另外,搜索是針對個人用戶的,一個用戶發(fā)起一個請求,而推薦系統(tǒng)既可能真對單個用戶進(jìn)行推薦,也可能針對用戶群進(jìn)行推薦。
廣告則是一個很特殊的存在,它在產(chǎn)品形式上很像推薦,總是“不請自來”,而在技術(shù)實現(xiàn)上又兼有推薦和搜索兩者特點(diǎn),而且它又是一個商業(yè)驅(qū)動的系統(tǒng),所以更多關(guān)注商業(yè)利益最大化。
有一個很有意思的現(xiàn)象,搜索和推薦的信息對象理論上可以共用的,也就是說可以允許用戶設(shè)置條件檢索一堆候選對象,也可以把這些候選對象主動推薦給可能感興趣的用戶面前。但是廣告的信息對象卻是另一個隔離的存在,為什么不能讓用戶直接設(shè)置條件檢索我們的廣告庫存呢,就像是一個通常的搜索引擎一樣?也許是可能的。
抽象看三者
這三個系統(tǒng)有這些特點(diǎn),對于大多數(shù)成熟公司,他們已經(jīng)被把持在三個不同的團(tuán)隊部門手中,各自團(tuán)隊每天在同時填著大同小異的技術(shù)坑。
我們抽象一下三者的需求共性:本質(zhì)上都是在匹配,匹配用戶的興趣和需求(看成context),但匹配的目標(biāo),條件和策略不盡相同。
進(jìn)一步抽象下去,又可以分為三步:過濾候選(filter)+排序候選(ranking)+個性化輸出(personalization)。
過濾候選這一步在搜索里面天經(jīng)地義,query解析得到查詢意圖,或者更多結(jié)構(gòu)化的搜索條件,用結(jié)構(gòu)化的查詢條件去倒排索引中獲取搜索候選。
與之相似的是廣告系統(tǒng),搜索廣告也是拿著query去獲取候選廣告,而聯(lián)盟廣告則是拿著用戶標(biāo)簽去需求方獲取廣告候選。
filter在基于內(nèi)容的推薦策略中也有類似的過程,而其它推薦策略,比如協(xié)同過濾或者隱因子模型,一般是提前計算好的,并沒有明顯的類似搜索一樣的filter,不過我們?nèi)匀豢梢猿橄蟮匕迅鞣N不同召回策略視為filter這一步,只不過filter并不是同步進(jìn)行的,而是異步進(jìn)行的。
ranking這一步主要區(qū)別在于排序的目標(biāo)和約束。搜索的排序目標(biāo)是高相關(guān)性,無論BM25為代表的傳統(tǒng)排序模型還是以Learn to rank為代表的機(jī)器學(xué)習(xí)排序,皆如此,用戶每次在搜索上花費(fèi)的時間是不是更少(而不是更多)來衡量搜索的效果。
推薦系統(tǒng)的ranking比較復(fù)雜,相關(guān)性只是很小的部分,根據(jù)推薦系統(tǒng)的產(chǎn)品形式不同,ranking時排序不同。通常推薦系統(tǒng)用CTR預(yù)估來融合各種召回策略得到的候選集,如果做得深入,還需要考慮Exploit-Explore問題。附加的約束則千變?nèi)f化:電商中,當(dāng)天買過的當(dāng)天就不能再推了,新聞推薦里,重復(fù)的新聞不能再推了,某些場景需要推薦搭配,某些場景需要推薦相似,topN 推薦還需要考慮多樣性,序列推薦要考慮前序和后續(xù),etc。
廣告系統(tǒng)的排序更多是從經(jīng)濟(jì)學(xué)角度去看,通常CPC廣告的排序方式是結(jié)合預(yù)估CTR、出價、廣告質(zhì)量三者一起考慮。同時還要考慮很多別的因素,尤其是商業(yè)因素,平臺方的要求,廣告主的要求等等,是一個純動態(tài)博弈,正如微軟亞洲研究院的劉鐵巖所介紹那樣[4]。
personalization最被推薦系統(tǒng)看重,而且在某些場合,個性化一度成為推薦系統(tǒng)的代名詞,然而個性化只是推薦系統(tǒng)的衡量指標(biāo)之一而已,個性化的前提也一定是信息夠豐富夠垂直才行;搜索的personalization相對來說就粗淺一些,常見的是利用地域等人口統(tǒng)計學(xué)來做personalization,而且對于歧義較少的query,搜索如果太個性化既沒意義又有風(fēng)險。
三者的協(xié)同
雖然事實上三個系統(tǒng)目前是軍閥割據(jù),但其業(yè)務(wù)和技術(shù)上已經(jīng)有很多重疊,也能夠產(chǎn)生很多協(xié)同作用。
有一部分搜索需求是無法用搜索相關(guān)性滿足的,比如“一個人的夜晚聽什么歌”這樣的query,需要推薦系統(tǒng)去滿足,交互形式可能是眼下大熱的bot,也可能是傳統(tǒng)的流推薦等等。如果能夠識別出這樣的搜索請求,其實更應(yīng)該交給推薦系統(tǒng)來響應(yīng)。
推薦系統(tǒng)總體上滯后于用戶的即時需求,所以強(qiáng)大如Amazon這樣的推薦系統(tǒng),也是有搜索引擎來與之配合的。一方面,搜索因為能夠滿足用戶的主動尋找需求,所以能夠化解一些推薦不力不及時的尷尬;另一方面,搜索可以積累用戶興趣數(shù)據(jù);當(dāng)二者結(jié)合起來考慮時,可以避免“搜什么推什么”的窘境,整個系統(tǒng)能夠綜合考慮哪些是即時快速需求,哪些是長期興趣。
廣告系統(tǒng),在技術(shù)上和搜索跟推薦并無本質(zhì)差異,差異在意圖不同,功能不同。對用戶的信息需求滿足,搜索和推薦離真正得到滿足之間總是有一定的鴻溝,要么是信息不足,要么是信息過載,這些鴻溝可以利用經(jīng)濟(jì)手段進(jìn)行調(diào)配,也就是廣告系統(tǒng)。
業(yè)界觀點(diǎn)
以上分析只是基于純粹技術(shù)和業(yè)務(wù)角度的簡單分析,結(jié)束軍閥割據(jù),一統(tǒng)天下似乎是人民的殷殷期盼,然而,這個“人民”似乎只有你我這種站在“上帝視角”的人們。前面提到,之前在微博上,一眾從業(yè)者集體討論過這個問題[2][3],討論總結(jié)為:
- 幾乎所有人都覺得這個提法是意料之中,也承認(rèn)三者有統(tǒng)一的概念基礎(chǔ),對此亦有共識;
- 僅有少數(shù)公司(豆瓣)有成功的統(tǒng)一案例,并沒有人提出業(yè)界還有類似案例;
- 少數(shù)前輩(@清風(fēng)運(yùn)文,@張棟_機(jī)器學(xué)習(xí)) 三個系統(tǒng)都經(jīng)歷過,認(rèn)為實際上困難重重,困難不在框架上,在細(xì)節(jié)上,各自優(yōu)化需求差別很大;
- 還有一些人調(diào)侃說來自人的困難大于技術(shù)上的困難,這個自己體會不一樣,沒法寫論文。
總之,從這篇微博看到的討論來說,幾乎都持悲觀態(tài)度。
我的看法
基于以上的討論觀點(diǎn)及事實,雖然業(yè)界很悲觀,但并不是毫無希望,總結(jié)幾點(diǎn):
1. 三者有統(tǒng)一的可能性,而且不低;
2. 在已經(jīng)被割據(jù)的公司里,再重新一統(tǒng)天下非常困難,投入產(chǎn)出比會很低;
如果要統(tǒng)一,從0就開始,所以更適合創(chuàng)業(yè)公司或中小公司,可能這也是為什么豆瓣有成功案例的原因;
3. 由于人的因素很重,所以從一開始就應(yīng)該把三者劃歸一個團(tuán)隊來統(tǒng)一規(guī)劃,人員配置上:技術(shù)上統(tǒng)一,業(yè)務(wù)上分開。
4. 必須用數(shù)據(jù)證明統(tǒng)一之后比統(tǒng)一之前好,而不是工程師自己“感覺不錯”,這個“好”可以體現(xiàn)在實際上的業(yè)務(wù)指標(biāo)提升,也可以體現(xiàn)在開發(fā)效率提升。
參考文獻(xiàn)
[1] Information Seeking: Convergence of Search, Recommendations and Advertising
[2] http://ml.memect.com/remix/3783095167238447.html
[3] 看了Hector Molina在Recsys’14上提的Search……來自Arber
[4] 劉鐵巖:在微軟大學(xué)的三次華麗轉(zhuǎn)型
作者:陳開江@刑無刀(微信:kaijiang_chen),資深推薦系統(tǒng)從業(yè)者,歡迎交流。
本文由 @刑無刀 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
- 目前還沒評論,等你發(fā)揮!