個性化推薦背后的生成機(jī)制
大家都記得塔吉特的案例:2012年,美國一名男子闖入他家附近的一家零售連鎖超市塔吉特內(nèi)抗議:你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車優(yōu)惠券。店鋪經(jīng)理立刻向來者承認(rèn)錯誤,但是該經(jīng)理并不知道這一行為是總公司運(yùn)行數(shù)據(jù)挖掘和個性化推薦的結(jié)果。一個月后,這位父親前來道歉,因?yàn)檫@時(shí)他知道自己的女兒的確懷孕了。塔吉特比這位父親知道自己女兒懷孕足足早了一個月。
塔吉特的案例是基于數(shù)據(jù)挖掘所做的用戶行為分析的結(jié)果,經(jīng)過分析之后,系統(tǒng)對用戶進(jìn)行了個性化推薦,以至于他們有把握給客戶提供的商品是他們所喜歡和需要的。
個性化推薦的背后原理
要了解個性化推薦,先得理解互聯(lián)網(wǎng)挖掘和協(xié)同過濾這兩個概念。
準(zhǔn)確地說,互聯(lián)網(wǎng)的挖掘(WEB挖掘)指的是,利用數(shù)據(jù)挖掘技術(shù)從互聯(lián)網(wǎng)上的文檔中及互聯(lián)網(wǎng)服務(wù)上自動發(fā)現(xiàn)并提取人們感興趣的信息。
Web挖掘是對現(xiàn)代電子商務(wù)戰(zhàn)略的一個重要支持,尤其是web挖掘中的用戶訪問模式挖掘主要用于對客戶在網(wǎng)上行為的分析以及潛在的顧客信息的發(fā)現(xiàn)。Web挖掘的一個實(shí)現(xiàn)方法是對服務(wù)器日志、錯誤信息日志和本地終端數(shù)據(jù)日志等日志文件進(jìn)行分析,挖掘出用戶的訪問行為、訪問頻率和瀏覽內(nèi)容等信息,從而找出一定的模式和規(guī)則。
這就引出了協(xié)同過濾的概念。協(xié)同過濾是信息檢索的一種技術(shù),目標(biāo)是為了幫用戶在海量的互聯(lián)網(wǎng)信息(商品)中找出感興趣的內(nèi)容。
在電子商務(wù)的應(yīng)用中,我們通常使用協(xié)同過濾技術(shù)來找出關(guān)聯(lián)商品推薦。這種商品推薦方法被稱為推薦系統(tǒng)或個性化推薦系統(tǒng)。用通俗的話來說,協(xié)同過濾算法可以幫助找到和你喜好類似的那群人,看他們買了什么東西,然后推薦給你。
協(xié)同過濾的主要方法有以下三種:
基于用戶的:收集用戶的信息屬性。對于每一個用戶A,找到和他比較接近(或者相似)的幾個用戶。使用這些相似的用戶對用戶A的興趣點(diǎn)進(jìn)行預(yù)測,而把那些潛在的并沒有被發(fā)掘出的興趣點(diǎn)推薦給用戶A。
基于項(xiàng)目的:收集項(xiàng)目的信息屬性。對于一個用戶,如果他對項(xiàng)目X有很高的興趣,那么他很有可能也對與X相似的項(xiàng)目有潛在的興趣。
基于內(nèi)容的:除了用戶和項(xiàng)目屬性之外,基于內(nèi)容的協(xié)同過濾還要進(jìn)一步分析用戶的評價(jià)內(nèi)容和反饋。比如用戶A對項(xiàng)目X感興趣,但是他對X的興趣是“痛恨”,這樣就不能把他和“喜歡”項(xiàng)目X的用戶歸類在一起了。
找到相似點(diǎn)
當(dāng)然,在電子商務(wù)領(lǐng)域,項(xiàng)目主要指的是商品。協(xié)同過濾推薦是基于這樣的假設(shè):如果一些用戶對一些項(xiàng)的評分比較相似,則和這些用戶相似的其他用戶對這些項(xiàng)的評分也比較相似,而這些用戶對于和這些項(xiàng)相似的其他項(xiàng)所做的評分也是相似的。
我們來舉例說明:你在電子商城里買了電影碟片《指環(huán)王》和《星球大戰(zhàn)》,協(xié)同過濾算法可以幫助你找到買了類似產(chǎn)品的其他人。如果算法發(fā)現(xiàn)他們還買了《哈利·波特》,就會把《哈利·波特》推薦給你。如果你買了余華的《兄弟》和《活著》、蘇童的《大紅燈籠》,系統(tǒng)找到了其他買這些書的人,發(fā)現(xiàn)這些人都買了莫言的《檀香刑》,于是就會把這本書推薦給你。
當(dāng)我們找到和客戶A“相似”的那些其他客戶之后,就可以對商品列表進(jìn)行排序了,越多和客戶A相似的客戶買了商品X,就說明商品X越可能吸引客戶A。
簡單地說,我們?nèi)绻J(rèn)為有1000個客戶是和客戶A“相似”的,那么可以把這些客戶購買的歷史數(shù)據(jù)調(diào)出來按照多寡排序。如果其中有100個客戶都購買了商品X,有90個顧客購買了商品Y,那么我們會優(yōu)先對客戶A推薦商品X,然后再推薦商品Y。
大數(shù)據(jù)下的個性化推薦
推薦系統(tǒng),或者稱為個性化推薦系統(tǒng),是建立在數(shù)據(jù)挖掘基礎(chǔ)上的一套系統(tǒng),以為顧客購物提供完全個性化的決策支持和信息服務(wù)為目的。幾乎所有的海外大型電子商務(wù)網(wǎng)站,包括亞馬遜和eBay,都不同程度地使用了各種形式的推薦系統(tǒng)。
我們來看一個基于協(xié)同過濾規(guī)則的推薦系統(tǒng)實(shí)施案例。
如左下表所示,Chris、Jenny、Mark和Peter等都是系統(tǒng)中的用戶,而商品A、B、C等都是用戶購買過的商品,打鉤表示對應(yīng)的用戶購買了對應(yīng)的商品。
我們先來看基于用戶的推薦。假設(shè)通過推薦系統(tǒng),我們發(fā)現(xiàn)Chris和Peter兩位用戶的相似度是非常高的,其中Peter已經(jīng)購買了商品A、C、E,而和他很“相似”的Chris只買了商品A,推薦系統(tǒng)就會把商品C和E推薦給Chris。
我們再來看基于項(xiàng)目的推薦。假設(shè)通過推薦系統(tǒng),我們發(fā)現(xiàn)商品B和商品D是“相似”的。在系統(tǒng)的眾多用戶中,Jenny購買了商品B和D,Tina購買了商品D,而Venessa購買了商品B。我們的推薦系統(tǒng)根據(jù)商品B和D的相似規(guī)則,會把商品B推薦給Tina,并把商品D推薦給Venessa。
在協(xié)同過濾推薦系統(tǒng)中,一個需要考慮的因素是被推薦的商品X和商品Y本身的購買頻率。如果在全部的用戶中有10%的客戶都購買了商品X,而只有1%的客戶購買了商品Y,那么這時(shí)我們可能應(yīng)該推薦的商品是Y而不是X。我們可以在排序的時(shí)候加上一個系數(shù),而這個系數(shù)的數(shù)值是和該商品整體的熱度成反比的。因?yàn)樯唐稾在全部客戶中被購買的比例是商品Y的10倍,而在和客戶A“相似”的人群中被購買的比例只多了10%,那么我們在排序時(shí)需要把Y排在X的前面。
需要補(bǔ)充的是,協(xié)同過濾推薦系統(tǒng)是依賴于大量數(shù)據(jù)的。如果數(shù)據(jù)量不夠充分,推薦的結(jié)果可能會令人啼笑皆非。在新用戶、新項(xiàng)目或者整個系統(tǒng)是全新開始的情況下,個性化推薦引擎是無法工作的。
- 目前還沒評論,等你發(fā)揮!