自助機器學(xué)習(xí)平臺——Amazon SageMaker Canvas測評

4 評論 3951 瀏覽 10 收藏 11 分鐘

編輯導(dǎo)語:作為一款機器學(xué)習(xí)平臺,Amazon SageMaker Canvas是否真的為數(shù)據(jù)分析師、業(yè)務(wù)分析師等崗位提供了更加智能化的數(shù)據(jù)分析路徑?本篇文章里,作者就對這款0代碼機器學(xué)習(xí)智能工具做了體驗測評,一起來看。

身邊有很多寫SQL很厲害的數(shù)據(jù)分析人員,數(shù)據(jù)治理好了、對數(shù)據(jù)倉庫、業(yè)務(wù)需求都很熟悉,因為對機器學(xué)習(xí)算法、數(shù)據(jù)挖掘模型不是很熟悉,沒法獨立產(chǎn)出更高階的分析結(jié)果。

哪怕厲害的分析師自己花費九牛二虎之力,做出了模型,還要對模型不斷地調(diào)優(yōu),一趟操作下來,也累得夠嗆。

能否在沒有算法工程師支持的情況下,做模型訓(xùn)練和特征識別,快速調(diào)整策略呢?

最近體驗了 Amazon SageMaker Canvas?這樣一款人人自助式機器學(xué)習(xí)工具,我找到了答案。

一、產(chǎn)品體驗

1. 數(shù)據(jù)集選擇和介紹

筆者使用了Kaggle的公開的銀行數(shù)據(jù)集。

包含了14個特征:序號、客戶ID、名字、信用分、地區(qū)、性別、年齡、保有期、余額、購買的產(chǎn)品數(shù)量、是否有信用卡、是否活躍用戶、固定工資、是否正在從銀行中取錢。

其中,需要構(gòu)建的預(yù)測模型是:是否將會從銀行中取出錢。

基于該數(shù)據(jù)集,筆者完整地體驗了 Amazon SageMaker Canvas?數(shù)據(jù)集管理、建模、預(yù)測的流程。

2. 導(dǎo)入數(shù)據(jù)和預(yù)覽

在導(dǎo)入了數(shù)據(jù)集之后,系統(tǒng)就給了一些特征提示。

也可以在此處對特征值進行初步的篩選,缺失值、類型不匹配、唯一值等,還可以初步判斷特征和目標特征之間的線性相關(guān)關(guān)系、影響因子。

給出就給用戶一些特征權(quán)重的提示,能夠快速地調(diào)整選中的特征。

比如一些非關(guān)鍵特征:Surname、CustomerId,就被我去掉了。這樣,也適當減少不必要的計算量,提高模型構(gòu)建速度。

3. 快速構(gòu)建和標準構(gòu)建

系統(tǒng)提供了兩種構(gòu)建模式:標準模式、快速模式。

快速構(gòu)建模型模式,模型構(gòu)建速度更快,精確度則要低一些。標準模式則反之,模型構(gòu)建耗時更多,精準度則要高一些。

4. 模型構(gòu)建結(jié)果

模型的預(yù)測準確率。

模型訓(xùn)練完,在概覽頁可以看到預(yù)測的精準度為87.714%,也可以看到各個特征的影響值。

在得分頁,可以看到具體的預(yù)測準確數(shù)和錯誤數(shù)。

點擊高級指標,也看到不同結(jié)果,模型的準確度、精確度、召回值、AUC值。

5. 利用模型進行預(yù)測

模型構(gòu)建完成后,可以利用模型進行預(yù)測對單個數(shù)據(jù)進行預(yù)測。

也可以對數(shù)據(jù)集進行預(yù)測,系統(tǒng)會給出可能性。

二、應(yīng)用前景介紹

筆者所在的領(lǐng)域,是直播領(lǐng)域。用戶運營、數(shù)據(jù)分析師們?nèi)粘ν斗呸D(zhuǎn)化、用戶活躍、用戶留存、用戶召回率這些核心指標日常關(guān)注。

哪些特征的用戶的增加和流失,對平臺的活躍、營收指標影響巨大。

場景1:廣告投放

互聯(lián)網(wǎng)內(nèi)容領(lǐng)域,廣告投放對保持日活、增加營收的影響非常巨大。

通過廣告投放獲取的這波新用戶,是否具有消費潛力呢?要用什么樣的內(nèi)容做用戶承接,通過什么關(guān)鍵路徑能夠?qū)崿F(xiàn)留存和轉(zhuǎn)化呢?

為了提高投放效果,算法部門會基于歷史的用戶數(shù)據(jù)訓(xùn)練用戶留存、消費預(yù)測模型。

場景2:潛在流失用戶挽留

具備什么樣行為特征的是高潛流失用戶呢?在什么時間節(jié)點對這些潛在流失用戶進行召回、挽留,能夠提高留存率,提高拉活率呢?

給出清晰的流失用戶定義后,分析師和算法部門,可以構(gòu)建一套直播用戶流失預(yù)測模型。

基于模型,提取流失用戶的特征,利用這些特征對用戶進行挽留活動。

場景3:KA用戶分析和運營

KA用戶是直播行業(yè)里的重要運營和維護對象。

平臺新來了一個用戶,該用戶能否成為成為平臺營收的增長點呢?是否要在早期階段進行服務(wù)的提升和關(guān)系維護呢?

在直播場景里,預(yù)測模型將能大大提升精細化運營的ROI。

三、感觸比較深的點

1. 預(yù)覽數(shù)據(jù)

高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)分析和挖掘的基礎(chǔ)。

導(dǎo)入數(shù)據(jù)后,進行構(gòu)建后,數(shù)據(jù)分析師能快速地了解數(shù)據(jù)的大體質(zhì)量,不同特征的數(shù)據(jù)類型,有無缺失值,均值、眾數(shù)等信息,大大減少了因為數(shù)據(jù)質(zhì)量問題引發(fā)的后續(xù)的問題。

2. 構(gòu)建后的簡單特征關(guān)聯(lián)度分析

通常情況下,特征的選取,是基于業(yè)務(wù)經(jīng)驗,系統(tǒng)也對這方面給出了快捷的特征影響分析,幫助分析師能篩除不必要的特征,加快模型構(gòu)建速度。

模型構(gòu)建結(jié)束后,系統(tǒng)也基于 KernelShap 給出排名前十的影響模型預(yù)測結(jié)果的特征。

數(shù)據(jù)分析的同學(xué),可以將更多的精力放在對關(guān)鍵特征、關(guān)鍵用戶進行AB實驗。

因為本人不具備算法模型構(gòu)建的技能,所以Studio的部分,未進行深入體驗。

四、其他體驗

1. 視覺層面的感受

視覺層面有兩個特點:簡潔,不花哨;扁平化,不枯燥。

對比一些廠商的工具,可能因為產(chǎn)品調(diào)性問題,不會特別在意這些細節(jié)。

2. 交互層面

交互層面,也是比較便捷。在提醒方面,也是做得很好的。

操作指引給出了比較圖形化的解釋,和介紹中的很多點,都是有對應(yīng)關(guān)系的。

比如:清理和分析數(shù)據(jù)并獲得有關(guān)估算模型精度的指標,識別訓(xùn)練數(shù)據(jù)集中最具影響力的字段。

在導(dǎo)入了數(shù)據(jù)集之后,系統(tǒng)就給了我一些提示。

在預(yù)構(gòu)建時,就給用戶一些特征權(quán)重的提示。

3. 功能層面

模型管理的流程是:導(dǎo)入數(shù)據(jù)集 → 數(shù)據(jù)集自動檢測 → 預(yù)構(gòu)建(prebuild)→ 構(gòu)建 → 預(yù)測 → 導(dǎo)出/共享。

在上文提到的交互提示下,操作起來沒有任何難度。

模型構(gòu)建完成后,也能方便地看到構(gòu)建的細節(jié),也能更數(shù)據(jù)科學(xué)家和算法工程師溝通,將模型構(gòu)建的過程、腳本等等,都能進行共享,業(yè)務(wù)分析師職責(zé)范圍內(nèi)的工作難度被大大降低。

五、總結(jié)和感受

我覺得 Amazon SageMaker Canvas?這款產(chǎn)品擁有黑科技、定位清晰,緊盯目標,有邊界感。

將復(fù)雜繁瑣的特征工程、模型構(gòu)建的過程進行產(chǎn)品化,為分析師解決了 80% 的常見問題,大大提高了效率。

剩余的、難搞的、但是也同樣重要的模型調(diào)優(yōu),也可以跟數(shù)據(jù)科學(xué)家和算法工程師們進行協(xié)同。

數(shù)據(jù)分析師們將能大大地提升自工作效率,將更多的精力放到業(yè)務(wù)的驅(qū)動上。

 

作者:數(shù)據(jù)產(chǎn)品小lee;公眾號:樂說樂言

本文由 @數(shù)據(jù)產(chǎn)品小lee 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看了博主幾乎所有文章,讓我一個想轉(zhuǎn)數(shù)據(jù)產(chǎn)品的人十分受用,不知道博主有聯(lián)系方式嗎,可以咨詢下一些問題嗎?

    來自浙江 回復(fù)
    1. 可以關(guān)注同名公眾號哈~

      來自湖北 回復(fù)
  2. 看了文章數(shù)據(jù)分析,感覺Amazon SageMaker Canvas這款數(shù)據(jù)分析工具還蠻實用的。

    來自江蘇 回復(fù)
    1. 嗯,我個人感覺也是這樣,解放了不少工作,可以多了解下~

      來自廣東 回復(fù)