搜索策略:PC端時代起的流量入口

0 評論 2018 瀏覽 11 收藏 17 分鐘

搜索引擎曾經是PC端第一流量入口,百度就靠這個成就了BAT的江湖地位。雖然現在昔日榮光不在。但搜索功能依然是部分APP最大的流量入口。這篇文章,我們就來梳理下這個搜索功能的過往。

一、引入

早在PC互聯網時代,搜索引擎便是流量的主要入口。由于網站數量的快速增長,傳統人工瀏覽的方式已經不能滿足用戶獲取信息的需求,為此1995年誕生了很多早期的搜索引擎公司,如Yahoo、Excite、InfoSeek等。

移動互聯網時代,雖然一些內容類App上推薦系統主導了流量的整體分發,但在一些綜合類電商App上(如淘寶、京東),搜索仍是最大的流量入口。

1.搜索引擎的5個時代

①分類目錄時代。

1990年,Archie by加拿大麥吉爾大學,用于FTP(file transfer protocol)軟件上的文件搜索,Archie可以根據文件名稱查詢文件所在FTP地址,然而它并非現代意義上的搜索引擎(不能搜網頁、沒有機器人程序爬取,故只是雛形)。1994你那,卡內基梅隆大學創辦的Lycos被公認是第一代互聯網搜索引擎的代表,可以按分類目錄進行搜索,然后這些信息被統一歸類到一個網站上。

第一代搜索引擎的核心技術:網頁爬蟲能力、網頁分類能力。

第一代搜索引擎的核心問題:如何通過機器自動爬取這些網頁,并將這些網頁歸類到對應目錄下。

②文本檢索時代

1996年,產生了支持用戶輸入檢索詞并返回信息的檢索方式,系統計算相關性,返回網頁并排序,代表引擎是Excite、Alta Vista。

③鏈接分析時代

為了排除垃圾網站,斯坦福大學學生(Google創始人)推出了全新的排序算法:PageRank,核心思想是通過網頁之間的互相鏈接來側面反映網頁的流行性和權威性,該算法主要用于網頁排序。02年世界門戶網站基本都在使用Google搜索引擎,Google整合成了一個門戶網站的狀態。

第三代搜索引擎的核心技術:高效匹配用戶的檢索詞和網頁內容,返回高關聯度的相關內容并過濾低質內容,結合流行性和權威性進行科學排序,缺點在于未考慮個體的差異性,返回結果所有人都一樣。

④多功能+個性化+弱人工智能系統

第四代搜索引擎除了在功能上支持文本搜索以外,還需要支持圖片搜索、識曲搜索、視頻搜索、語音搜索等多種功能,召回和排序需要重點考慮個性化,對于不同用戶,同一檢索詞返回的內容不同但更合適,得益于AI的不斷進步。

⑤強人工智能時代

第五代搜索引擎需要以解決用戶實際問題為出發點,當網絡上沒有現成答案時可以自行為用戶解答,具備知識問答的功能,Bing在第五代搜索引擎中已經拔得頭籌。(搜索引擎是一個需要強積累的技術產品,不太可能突然誕生一個強有力的新秀)

2. 搜索引擎的分類

搜索引擎主要分為兩大類:

  • 綜合類搜索引擎:以Google、Baidu為代表,支持用戶對各類不同領域的內容進行搜索。
  • 垂直類搜索引擎:以淘寶、小紅書為代表,嵌套在某個產品里或者某個場景下,針對某些特定屬性的內容進行搜索。

對于垂直類搜索引擎,比如電商App搜索引擎,仍是以電商App第一大流量入口,搜索引擎貢獻GMV差不多占電商App整體GMV的70%,在其上進行微小策略優化最終產生的絕對收益是非常大的。

二、搜索引擎概述

1.搜索引擎簡介

1.1.搜索引擎的定義:

本質上是一種信息檢索系統,從海量的信息中檢索出和用戶查詢相關的信息,現階段不僅有搜索的功能,也有推薦系統(信息過濾系統)的邏輯。因為篩選之后推薦感興趣的也是搜索引擎需要解決的問題。

1.2.搜索引擎需要實現的目標

  • 精準:理解用戶意圖,返回高相關的匹配內容。這是搜索引擎最重要的目標,其他目標都需要以該目標為前提。此處的“精準”不僅是指物料和檢索詞之間的相關性匹配,還包括物料與用戶個性化偏好、差異化需求的精準匹配。
  • 全面:一方面是內容的全面,搜索引擎能夠滿足所有需求;另一方面是功能的全面,支持不同場景下的需求。
  • 可運營:除平臺整體以算法為導向的策略調控,還需要具有完善的以強業務干預為導向的人工運營功能。
  • 可反哺:對于電商,用戶檢索行為信息可以作為業務人員采用商品的參考;對于內容搜索引擎,可以指導平臺的內容生產。

1.3.搜索引擎需要解決的關鍵問題:

  • 準確識別用戶的查詢意圖:處理大量不規范檢索詞時如何更好地識別復雜檢索詞背后的真實意圖。
  • 實現查詢和物料的匹配:如何從平臺上海量的物料中召回相關的物料,物料豐富時擇優,物料匱乏時找替代,降低搜索到空結果率。
  • 科學地對返回的物料進行排序:基于用戶個性化偏好和物料本身的相關性、權威性、流行性等因素進行科學的排序,此世搜索引擎有了推薦系統的邏輯。
  • 做到有問必答,解決用戶大部分查詢需求:第五代搜索引擎需要解決的關鍵問題。

2. 搜索引擎整體架構

以上是一個完整的搜索引擎應該有的功能模塊,常見的流程包括建立物料索引、查詢語義理解、召回、粗排、過濾、精排、重排,最終在前端為用戶返回搜索結果。(比推薦策略多了兩個功能模塊:查詢語音理解與詞庫),但是單個模塊的子功能相對推薦系統更多,且處理邏輯有差異;

2.1 搜索前和搜索中的模塊

按照用戶搜索的流程可以將用戶行為分為搜索前、搜索中、搜索后三個部分。在搜索前、中兩個模塊,一般設置搜索底紋、搜索排行榜以及搜索聯想詞等功能,起到降低復雜度、引導的功能,同時也會針對錯誤檢索詞自動糾錯。

2.2.查詢語義理解

該模塊主要作用是充分理解用戶的檢索詞,構建查詢語法樹,輸入召回模塊中。查詢語法樹的構建一般需要經歷以下幾個環節:

  1. 將錯誤的輸入內容糾正為正確的檢索詞。
  2. 基于詞庫對原始檢索詞進行分詞,針對每個詞打上具體的實體類型,為每種實體類別設置相應的權重分。
  3. 基于切詞后的實體構建查詢語法樹。

查詢語法樹決定了檢索詞中哪些實體詞參與召回、哪些實體詞僅參與排序等。

2.3.詞庫和實體體系

該體系可以理解為查詢語義理解模塊的輔助功能模塊,分詞的基礎便是詞庫。在實際使用中用戶需要有針對地構建自己的詞庫,詞庫的構建沒有捷徑。

2.4.召回

查詢語法樹構建好后的環節就是物料召回,搜索引擎召回和檢索詞相關的物料,采用多路召回架構(召回路數遠小于推薦系統)。目前常見的召回方式有:文本召回、語義相關性召回、個性化召回。

在綜合類搜索引擎,召回不會翻頁刷新,但是在垂直類搜索引擎內搜索引擎下翻時會進行翻頁刷新。

2.5.物料索引

搜索引擎進行召回時還要用到一個輔助模塊,即物料索引。因為需要召回和檢索詞相關度高的物料,所以需要針對物料提前構建倒排索引。搜索引擎中的物料需要基于物料的標題等對物料的信息進行切詞處理,針對每一個詞構建對應的倒排索引,當用戶查詢時,可以快速檢索到對應的結果。

2.6.過濾

過濾環節在粗排和精排環節前,一方面是避免無效物料進入后續環節,影響后續效果,另一方面是提前過濾無效物料,減少無效環節的計算量。對于垂直類搜索引擎,主要按照SKU的庫存、上下架、是否涉及黃賭毒進行過濾;對于綜合類搜索引擎,主要針對是否包含黃賭毒或者政治敏感信息等進行過濾。一般來說,對于同一個APP,搜索引擎和推薦系統的過濾邏輯基本一致。

2.7.粗排

粗排的目的是對搜索結果進行初篩,基于召回點擊率or召回轉化率的邏輯,搜索引擎會有更多的排序因子。

2.8.精排

精排模型的目的是實現單點最優(point wise),主要用于預估單個搜索引擎的CTR和CVR。電商領域以預測CVR為主,綜合搜索引擎以預測CTR為主。

2.9.重排

三大重排策略:全局最優、用戶體驗和流量調控,實際落地要求不一樣,需要以“序列最優”為核心目標對搜索結果進行重排。用戶體驗的關鍵在于搜索結果的精準性和全面性。搜索結果頁的流量調控主要包括對商家、新創作者和新品的一些扶持。重排模塊里的物料排序就是最終展示在前端的物料排序。

2.10.搜索后模塊

配上搜索結果的樣式和創意。

2.11.特征服務

特征服務作為一種公共服務,可以供搜索引擎各個環節進行調用,推薦系統和搜索系統經常共用一個大的特征服務模塊。

3. 常見效果指標評估

搜索引擎包括召回和排序兩大模塊,模型也分為CTR預估模型和CVR預估模型兩種。對這兩種模型進行離線效果評估時和推薦系統一樣使用AUC指標。在實際評估時會拆分得更細,分為離線和在線兩個方面。

3.1.離線評估指標

  • 數據標注:搜索引擎初期需要對數據進行人工標注,明確物料庫里哪些物料應該召回,哪些物料不應該召回,完善人工標注的數據集才能進行離線效果評估。
  • 召回完整性:核心評估指標是召回率
  • 排序合理性:搜索引擎不僅要將所有商品召回,還應確保排序合理,理論上應該將評分最高的結果排在最前面。評估搜索結果排序的合理性時,一般使用DCG(discounted cumulative gain,折損累計收益)和NDCG指標(normalized discounted cumulative gain,歸一化折損累計收益)。

3.2.在線評估指標

離線效果評估主要評估搜索結果的召回完整性和排序合理性,在線效果評估可以通過多方面的指標來評估搜索引擎的結果。

  • 查詢無結果率 = 無結果返回的PV數/總搜索PV數,指標越高,搜索引擎召回模塊效果越差。
  • 平均點擊結果位數 = 總點擊結果位數/總搜索PV數,指標越小,排序模塊效果越好
  • 跳失率 = 跳失PV數/總搜索PV數,指標越高,搜索引擎效果越差
  • CTR = 點擊結果數/曝光結果數,統計口徑可以分為UV、PV和曝光件次口徑
  • CVR = 訂單數/點擊數,評估搜索引擎的綜合效果,統計口徑可以分為UV、PV和曝光件次口徑;訂單數可以分訂單行和訂單量兩種口徑。

對于綜合搜索類引擎來說,核心考核指標是CTR;對于電商類搜索引擎來說,核心考核指標是CVR,電商業務以GMV為首頁目標,搜索引擎需要盡可能將用戶的每一次搜索轉化為訂單。

4. 搜索策略產品經歷畫像

搜索策略產品經理是最早的策略產品經理,因為搜索引擎在工業領域最早得到廣泛應用。最早一批搜索策略產品經理大多來自Google、Yahoo等知名的搜索引擎平臺。

搜索引擎可以分為綜合類搜索引擎和垂直類搜索引擎。垂直類搜索引擎可以細分為電商搜索引擎、短視頻搜索引擎、內容社區搜索引擎等,雖然搜索引擎的細分方向很多,但搜索策略產品經理的工作主要包括以下3項。

1)召回。和召回有關的策略包括查詢語義理解模塊策略、召回模塊策略。這兩個模塊細分的功能有檢索詞解析、糾錯、檢索詞改寫、查詢語法樹構建等,均由此部分的策略產品經理負責。在日常生活中,策略產品經理需要分析大量案例,做大量的案例評估,分析檢索詞和搜索結果之間的相關性,基于案例評估結果與優化查詢語義理解模塊和召回模塊的策略。部分互聯網公司把查詢語義理解模塊單獨剝離出來,由專人負責。

2)排序。策略涉及工作包括整體流量分發策略制定、排序公司的設定、精排模型和重排模型的樣本選擇、特征工程等。

3)平臺生態。配合平臺生態相關策略的制定。

本文由 @乾意 原創發布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!