數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法
單純理解算法還算容易,但是到實(shí)際工作中就往往理不清頭緒,特征變量從哪來,又怎么選,模型的輸出結(jié)果是什么,如何評(píng)價(jià)模型好壞,有了模型如何應(yīng)用,模型上線之后還要做什么等等一系列問題。今天我們就以常用的邏輯回歸為例,結(jié)合實(shí)際場(chǎng)景說說如何應(yīng)用結(jié)果問題的過程。對(duì)于數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)建模師、數(shù)據(jù)挖掘工程師、數(shù)據(jù)分析師來說,都必須了解全部流程。
算法描述
邏輯回歸(Logistic Regression)是應(yīng)用非常廣泛的一種分類機(jī)器學(xué)習(xí)算法,算法簡(jiǎn)單且高效、預(yù)測(cè)速度快,而且容易學(xué)習(xí)和理解。進(jìn)一步說,邏輯回歸是一個(gè)二分類算法,主要解決離散的兩元分類【是、否】預(yù)測(cè)的問題。聽得最多的線性回歸是解決連續(xù)型變量預(yù)測(cè)的問題,例如已知近年的銷售數(shù)據(jù)預(yù)測(cè)下季度的銷售額。
對(duì)于多個(gè)分類問題,y不在[0, 1]中取值,而是有K個(gè)分類。多非類有兩種情況,一是K個(gè)類別不是互斥的,比如用戶會(huì)購(gòu)買哪些品類,就可以為每個(gè)品類分別訓(xùn)練一個(gè)二元分類器。 如果K個(gè)類別是互斥的,即y=1時(shí)不能取其它值,比如預(yù)測(cè)用戶的年齡段,這種情況可以利用Softmax Regression算法,是對(duì)LR的改進(jìn)。
下面這張圖非常清晰的描述了算法的原理,n個(gè)自變量(X1,X2,…Xn)會(huì)影響分類結(jié)果, Beta系數(shù)代表是每個(gè)變量對(duì)分類的影響程度,需要通過訓(xùn)練數(shù)據(jù)集做最大似然估計(jì)(所有樣本的預(yù)測(cè)值和真實(shí)值一致性的概率最大)得出,Beta值越大說明該變量對(duì)結(jié)果的影響越顯著,然后再用Logit函數(shù)做變型,把數(shù)值轉(zhuǎn)化成[0, 1]值。
邏輯回歸是有監(jiān)督學(xué)習(xí)算法,首先利用訓(xùn)練數(shù)據(jù)集多次迭代估算出Beta參數(shù),然后把測(cè)試數(shù)據(jù)帶入下面的公式(sigmoid函數(shù)),就可以求出每個(gè)測(cè)試記錄的預(yù)測(cè)值,把預(yù)測(cè)值和實(shí)際的真實(shí)進(jìn)行比較,計(jì)算模型的準(zhǔn)確率、AUC值來評(píng)價(jià)該模型能是否達(dá)到應(yīng)用要求。
為什么能得到【0,1】之間的概率呢,主要是sigmoid函數(shù)的功勞,如果把上面的sigmoid函數(shù)用圖像畫出來就能直觀看出來了 。從如下的函數(shù)圖上可以看出,函數(shù)y=g(z)在z=0的時(shí)候取值為1/2,而隨著z逐漸變小,函數(shù)值趨于0,z逐漸變大的同時(shí)函數(shù)值逐漸趨于1,而這正是一個(gè)概率的范圍。
作為產(chǎn)品經(jīng)理必須要理解算法原理、來龍去脈、應(yīng)用場(chǎng)景,知道如何準(zhǔn)備數(shù)據(jù),基本夠用了,推倒算法的過程還是交給數(shù)學(xué)專業(yè)的搞吧,下面我們通過實(shí)際例子,看看如何使用算法。
算法實(shí)例
案例描述
預(yù)測(cè)用戶對(duì)18個(gè)大品類的購(gòu)買偏好【1,0】,品類偏好不是互斥的,即可以同時(shí)喜歡多個(gè),所以使用LR構(gòu)建18個(gè)分類模型預(yù)測(cè)用戶對(duì)每個(gè)品類的購(gòu)買偏好即可。
分析變量
找到可能影響分類結(jié)果的因素,例如:品類瀏覽頻次、品類購(gòu)買頻次、購(gòu)買總金額、平均購(gòu)買間隔天數(shù)、近一次購(gòu)買時(shí)間、近一次瀏覽時(shí)間、總停留時(shí)間、家庭人口數(shù)量、地理位置。然后數(shù)據(jù)倉(cāng)庫(kù)中匯總計(jì)算出這些指標(biāo)(這部分屬于數(shù)據(jù)工程師的工作,從原始數(shù)據(jù)中抽取、匯總計(jì)算,例如數(shù)據(jù)倉(cāng)庫(kù)有用戶購(gòu)買的多條記錄,但沒有平均購(gòu)買間隔天數(shù)這個(gè)指標(biāo)),最后一列是實(shí)際的分類結(jié)果,構(gòu)建成一個(gè)含有很多相關(guān)變量的大寬表作為算法的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,如下圖所示。實(shí)際應(yīng)用中為了模型更加精準(zhǔn)需要組織更細(xì)節(jié)的變量,比如近1/2/3/7天的點(diǎn)擊、收藏、瀏覽次數(shù),以及用戶這些行為和該品類全部用戶行為的比例關(guān)系等等。
特征選擇
特征選擇是從屬性集合中選擇那些重要的,與分析任務(wù)相關(guān)的子集的過程。選擇變量不在多,關(guān)鍵就行。 特征選擇方法有逐步增加法(先選擇一個(gè)最優(yōu)的,然后逐個(gè)添加)、逐步遞減法(所有屬性做為候選,逐個(gè)刪除)、遞歸特征刪除法。這里使用遞歸刪除法,通過邏輯回歸算法本身就是計(jì)算特征變量的系數(shù),系數(shù)大小也就代表了該變量的重要程度。 遞歸刪除法是用全量特征跑出一個(gè)LR模型,根據(jù)線性模型的系數(shù)(上面說過了系數(shù)越大說明變量和分類相關(guān)性越大),刪掉5-10%的弱特征,觀察準(zhǔn)確率/AUC的變化,逐步進(jìn)行, 直至準(zhǔn)確率/AUC出現(xiàn)大的下滑停止,這時(shí)保留下來的特征系數(shù)就是模型的輸出。
模型檢驗(yàn)
模型檢驗(yàn)主要采用準(zhǔn)確率和AUC兩個(gè)指標(biāo)。計(jì)算兩個(gè)指標(biāo)都需要理解幾個(gè)概念,所謂的真正例就是真實(shí)類別為【是】且預(yù)測(cè)類別也為【是】,假負(fù)例(預(yù)測(cè)類別為【否】但實(shí)際為【是】)、假正例(預(yù)測(cè)類別為【真】但實(shí)際為【否】)、真負(fù)例(預(yù)測(cè)類別為【否】且實(shí)際也為【否】)。準(zhǔn)確率是指測(cè)試集中被正確分類的比例,例如100個(gè)測(cè)試記錄,有82(48 + 34)個(gè)被正確分類,即真正例和真負(fù)例的和,正確率就是82%,算法的準(zhǔn)確率一般要高于80%,不然沒法實(shí)際應(yīng)用。
AUC(Area under the Curve of ROC)比較麻煩需要先畫ROC曲線,AUC就是ROC曲線下方面積所占的比例,越大越好。ROC曲線X軸是假正例(FP)的累計(jì)比例,Y軸是真正例(TP)的累計(jì)比例,那么自然是,F(xiàn)P rate小時(shí)TP rate越大模型越好。
模型輸出
模型輸出,模型構(gòu)建完成后輸出的結(jié)果就是保留的特征變量以及其對(duì)應(yīng)的系數(shù)。
模型應(yīng)用
模型應(yīng)用,有ID為1000的用戶,他對(duì)應(yīng)的特征變量為(31, 6, 138, 29, 3, 26, 38, 4),判斷其是否會(huì)購(gòu)買洗護(hù)這個(gè)品類。方法就是把參數(shù)帶回下面的公式中,計(jì)算分類概率是0還是1,如果是1就說明用戶近期會(huì)購(gòu)買該品類。
迭代優(yōu)化
迭代優(yōu)化,模型上線后會(huì)根據(jù)運(yùn)營(yíng)不斷的去優(yōu)化,提高轉(zhuǎn)化率,比如再擴(kuò)充平均購(gòu)買金額,最大購(gòu)買金額等等字段構(gòu)建新的模型,然后做A/B測(cè)試,如果的準(zhǔn)確率和轉(zhuǎn)化率都高于舊的模型則正式上線。
至此,我們就完成的邏輯回歸的實(shí)際應(yīng)用。
作者:百川,微信公眾號(hào):修煉大數(shù)據(jù)(studybigdata)
本文由 @百川 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels,基于 CC0 協(xié)議
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營(yíng)》終于上線啦!
本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營(yíng)等人群。
課程會(huì)從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺(tái)的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識(shí)體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺(tái)等實(shí)際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!