成為搜索產品經理(1):搜索引擎

8 評論 21093 瀏覽 151 收藏 12 分鐘

本文作者從了解搜索產品經理的目的出發,對搜索引擎的發展進行了梳理分析。希望通過此文能夠加深你對搜索產品的認識。

最近和百度大搜的產品同學交流他的工作,交流之后,自我覺察到我對該崗位的工作認知仍不夠系統,當然,對一個工作崗位的認知也不是三言兩語,1個小時的溝通就能了解透徹的。

我嘗試在網絡上找一些資料,但發現,網絡上很少有系統化講解這一崗位的文章。本著羅老師在2020年時間的朋友里面講到的「躬身入局」的精神,我嘗試查閱了一些枯燥無味的書籍以及文獻,并將其整理如下,與大家分享。

一、互聯網的發展

在討論如何成為搜索產品經理之前,我們需要了解搜索引擎的發展。想要了解搜索引擎的發展,我們先將時間軸拉回20世紀90年代,回顧互聯網的發展。

20世紀90年代,技術與產品的發展,為互聯網的快速普及和發展做好了準備。

1.1 技術上的發展

1991年,Tim Berners-Lee(蒂姆·伯納斯-李、萬維網的發明者)將超文本的概念引入互聯網,同時推出www雛形、配套的HTTP傳輸協議以及相應的Web服務技術

我來解釋一下,蒂姆·伯納斯-李做出這些發明,意味著什么。

1.1.1 超文本概念
超文本(Hypertext)簡單來說是一種可以顯示在電腦顯示器或其他電子設備的文字,其中的文字包含了可以鏈接到其他字段或文檔的超鏈接,允許從當前閱讀位置直接切換到超鏈接所指向的文字。

從其技術上來說,超文本是指使用超文本標記語言(HTML, Hyper Text Markup Language)編輯包含標記指令的文本文件,通過資源定位符(URL, United Resource Location )指向其他內容,在不同的文檔或同一文檔的不同部分質檢建立聯系。使得使用者可以通過一個網址訪問不同網址的文件。

1.1.2 萬維網
萬維網WWW(World Wide Web)是一個通過互聯網訪問的,由許多互相鏈接的超文本組成的系統。是一個大規模的聯機式的信息儲藏所,英文簡稱Web。萬維網用鏈接的方法能方便地從互聯網的一個站點訪問另一個站點,從而主動地按需獲取豐富的信息。

5個萬維網站點

上圖畫了5 個萬維網的站點,它們可以遠隔數千里,但都必需連接在互聯網上。每一個萬維網站點都保存了許多文檔。這些文檔之間通過鏈接(link),有時候也被稱為超鏈接(hyperlink)的方式彼此相連??梢酝ㄟ^這個文檔鏈接到相隔很遠的另一個文檔,經過一定的時延,我們的屏幕上就可以將遠方發送過來的文檔顯示出來。

萬維網的出現使得網站數按指數增長,所以萬維網的出現可以說是互聯網發展中的一個里程碑。

1.1.3 HTTP傳輸協議

HTTP協議是Hyper Text Transfer Protocal(超文本傳輸協議)的縮寫,是用于從萬維網服務器傳輸超文本到本地瀏覽器的傳送協議。

1.2 產品上的發展

1993年,第一個圖形瀏覽器mosaic誕生,網頁瀏覽客戶端趨于成熟。

Mosaic是第一個可以在同一個窗口顯示文本和圖片的瀏覽器。

MOSAIC

由于上述技術與產品的發展,互聯網的用戶群體也發生了變化,從開始的軍隊和高等科研院校,普及到了普通個人用戶。擴大的用戶群,為互聯網的商業化奠定了基礎。

二、搜索引擎的發展

綜合因素,導致互聯網上的信息產生爆炸式增長。如何從海量信息中找到滿足用戶需求的信息,成為重點。

技術與產品的發展,降低了人們發布信息的門檻,同時,由于用戶群體的擴增,網絡上產生了大量的信息。

為了滿足用戶從海量信息中找到所需信息的訴求,一系列搜索引擎商業公司開始建立。比如yahoo、InfoSeek、Fast Search等

搜索引擎是對Internet上的信息資源進行搜集整理,然后供用戶查詢的系統。包含信息采集、信息整理、與用戶查詢3個部分。

2.1 目錄搜索引擎

目錄搜索引擎是指搜索引擎的信息采集方式,也是搜索引擎的搜索方法。

目錄搜索把搜集到的信息資源按照一定的主題分門別類,建立多級目錄結構。大目錄下面包含子目錄,子目錄下面又包含子目錄。依次原則建立多層具有包含關系的目錄。用戶查找信息時,采取逐層瀏覽打開目錄,逐步細化,就可以查到所需信息。

目錄搜索引擎中,需要以人工方式采集信息,編輯人員對信息進行查看,形成信息摘要,然后將信息放置在對應的分類結構中。

2.1.1 雅虎
Yahoo是當時著名的搜索和門戶網站。yahoo的目錄搜索引擎。

例如,中文雅虎網站的目錄搜索引擎:

如果我們要在其中查找關于著名作家金庸的網頁,可以逐步搜索“藝術與人文” | “人文” | “文學” | “文學類別” | “小說” | “武俠” | “作者” | “金庸”,即可實現目的。

2.1.2 常用的中文目錄型搜索引擎

  1. 搜狐
  2. 網易
  3. 新浪

目錄搜索引擎的利與弊:

  • 利:由于加入了人工的因素,因此信息準確、導航質量高。
  • 弊:需要人工介入,維護量大,信息量少,信息更新不夠及時。

2.2 搜索引擎技術的發展

隨著信息進一步快速發展,信息呈現爆發式增長,目錄搜索引擎的弊端顯現,不能好地滿足用戶需求。

在目錄型搜索引擎技術發展之后,出現了不同的搜索引擎技術:

  • 文本檢索
  • 鏈接分析
  • 用戶中心

在這不做詳細闡述。

三、搜索引擎的目標

搜索引擎的應用形式簡單:用戶輸入查詢詞,搜索引擎返回查詢結果。

在這個過程中,只涉及兩個主體,用戶與搜索引擎。

搜索引擎的目標是提供更全、更準、更快的搜索服務。

在上面的3個目標中,更準是最關鍵的。

四、搜索引擎的3個核心問題

在我們來分析搜索引擎的3個核心問題之前,我們先來看一下單個搜索的簡單流程:

4.1 用戶需求

根據上圖,當用戶輸入查詢詞,搜索引擎需要返回查詢結果。這個過程,我們可以將其視作一次人機互動。

人機互動,即人與計算機的互動,第一步是獲取用戶的意圖。

對于搜索引擎來說,這也是非常重要的。只有獲取了用戶的真正意圖,后續的信息-意圖匹配才能展開。

用戶的意圖到底是什么?

  • 不同的用戶,輸入搜索框的同一個查詢詞,有可能背后的意圖是不一樣的。
  • 同一個用戶,輸入搜索框同一個查詢詞,也有可能因為其所處場景不同,其意圖也是不一樣的。

如何識別上述的差異。這也是搜索系統需要解決的第一個核心問題,即此時此刻,用戶的真實搜索意圖是什么?

4.2 與用戶需求相關的信息

明確了用戶查詢的真實意圖后,搜索系統需要從海量的信息中,找到能夠匹配用戶需求的內容。

搜索系統為用戶搜索意圖匹配關鍵信息方式的指導思想,還是基于關鍵詞的匹配。

當算法系統搜索到包含與用戶查詢詞相同的的網頁,這便是搜索到的信息可能是用戶想要查找的內容相關的最基本信號。如果是網頁或者文本的標題出現了這些關鍵字,則表示該信息與用戶想要查找的內容相關的可能性更大。

4.3 分辨出可信賴的信息

搜索的本質是找到滿足用戶需求的信息。

相關性是衡量信息是否滿足用戶需求的一個指標,信息的可靠性,同樣也是衡量搜索系統質量的重要指標。

「成為搜索產品經理」我會將其做為一個系列來寫,從互聯網的發展開始,抽絲剝繭,將我所了解的與大家分享,也期待能與大家討論,共同進步。

本篇是「成為搜索產品經理」的第一篇,后續我會陸續更新~

#參考資料#

1. Tim Berners-Lee 談網絡的未來
2. ~[https://en.wikipedia.org/wiki/Mosaic_(web_browser)](https://en.wikipedia.org/wiki/Mosaic_(web_browser))~
3. Internet應用基礎教程 | 尤曉東
4. 信息檢索 | 陳雅芝
5. 這就是搜索引擎核心技術詳解
6. 超文本傳輸協議HTTP https://blog.csdn.net/codejas/article/details/79002339
7. Google 搜索 | 搜索算法的工作方式

 

本文由 @一顆西蘭花 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 期望有個圈內產品的群,大家一起學習

    回復
    1. 我也想有一個這樣的群??!

      來自北京 回復
    2. 那就搞起吧

      回復
    3. 大佬們 求拉!

      回復
    4. 求拉18600809134

      來自北京 回復
    5. 求拉

      來自江蘇 回復
  2. 哈哈期待長期更新

    回復
    1. 會持續更新!

      來自北京 回復