淺談人工智能產(chǎn)品設(shè)計:LDA主題模型

3 評論 8172 瀏覽 43 收藏 6 分鐘

LDA是一種無監(jiān)督的算法,作用是從一份文檔中提出文檔的主題,以及主題中的詞語。

一、LDA模型簡介

LDA是Latent Dirichlet Allocation(潛在狄利克雷分配模型)的縮寫,也是線性判別分析(Linear Discriminant Analysis)的簡寫。本文探討的是第一種Latent Dirichlet Allocation(潛在狄利克雷分配模型)技術(shù)。LDA通俗的來講就是一種主題抽取模型。它是一種無監(jiān)督的算法,作用是從一份文檔中提出文檔的主題,以及主題中的詞語。LDA模型應(yīng)用范圍很廣,如我們熟知個性化推薦、商品標(biāo)簽、智能分類等等。

有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)的概念是比較容易理解的。這邊就簡單的提一下。

我們知道,AI系統(tǒng)都可以抽象為如圖所示的結(jié)構(gòu):

我們訓(xùn)練AI,就是要得到一個模型。訓(xùn)練模型的方式有這么幾種:

  • 有監(jiān)督學(xué)習(xí):即通過人工標(biāo)注數(shù)據(jù),機器從中學(xué)習(xí)得到模型,如分類、回歸算法。
  • 無監(jiān)督學(xué)習(xí):機器直接通過海量的數(shù)據(jù)自主學(xué)習(xí)得到模型。,如聚類算法。
  • 半監(jiān)督學(xué)習(xí):機器通過少量的人工標(biāo)注數(shù)據(jù)和海量的無標(biāo)注數(shù)據(jù)學(xué)習(xí)得到模型。半監(jiān)督學(xué)習(xí)的特點就是,用少數(shù)的人工標(biāo)注數(shù)據(jù)就能得到一個不錯的模型,隨著模型的使用,產(chǎn)生的糾錯數(shù)據(jù)又能反過來提升模型的精度,最終使得模型得到最優(yōu)。

回到我們要講的LDA模型。根據(jù)場景的不同,數(shù)據(jù)的不同可以選擇不同的方案。如定制化場景下,可以做有監(jiān)督的學(xué)習(xí),以達到較好的精度。如在to C的產(chǎn)品中,則使用半監(jiān)督的學(xué)習(xí)方式可以讓產(chǎn)品具有個性化推薦的能力。

簡單解析一下LDA模型的原理:

在LDA模型中,文檔是由詞語組成主題,再由主題組成的文章。在主題中,有詞語的一個概率分布,概率越高表示與主題的關(guān)聯(lián)性越大。相對的,文檔中有一個主題概率分布,概率越高代表與文檔的相關(guān)性越高。LDA的簡化公式如下:

P(詞語|文檔)=∑P(詞語|主題)×P(主題|文檔)

LDA從詞語在文檔中的概率學(xué)習(xí)得出詞語在主題中的概率分布以及主題在文檔中的概率分布。

從公式中我們就能夠很清晰的看到,如何能夠提升LDA模型的準(zhǔn)確度再融合進算法中,從而提升產(chǎn)品的用戶體驗。

關(guān)鍵點在于:

  • 提供詞語|主題的標(biāo)注數(shù)據(jù)。
  • 提供主題|文檔的標(biāo)注數(shù)據(jù)。

二、LDA主題產(chǎn)品設(shè)計

假設(shè)我們要做一款個性化信息流的產(chǎn)品,我們想運用LDA為文章打標(biāo)簽,并推送給具有相同標(biāo)簽的用戶,從而實現(xiàn)個性化推薦,那我們要怎么做?

其實標(biāo)簽就可以看成是LDA中的主題,融合AI的產(chǎn)品的設(shè)計如果能巧妙的讓用戶給你提供標(biāo)注數(shù)據(jù),這樣的產(chǎn)品體驗一定是優(yōu)秀的。

沿著這個思路,我們可以有這樣的設(shè)計方案:

可以先讓用戶選擇標(biāo)簽,然后給用戶推薦一些無監(jiān)督學(xué)習(xí)標(biāo)注出來的同標(biāo)簽的文章,手機用戶的點擊數(shù)據(jù)、停留時長、點贊、收藏等數(shù)據(jù),再把這些數(shù)據(jù)轉(zhuǎn)化為用戶對這個文章的認(rèn)可程度。如果用戶認(rèn)可程度高,就提升這篇文章的權(quán)重;如果認(rèn)可程度低的,降權(quán)。再設(shè)計一個“不喜歡”的按鈕,用戶點擊了也對文章進行降權(quán)。如果經(jīng)過海量用戶的使用,可以獲得較為優(yōu)質(zhì)的數(shù)據(jù), 再利用這些數(shù)據(jù)進行訓(xùn)練,使得模型越來越精準(zhǔn)。

總結(jié)成一幅圖就是:

 

本文由 @?躚塵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自PEXELS,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 寫的很好??

    回復(fù)
  2. 寫的有點過于簡潔了,希望能更詳細(xì)一點謝謝

    來自北京 回復(fù)