Amazon SageMaker Canvas | 數(shù)據(jù)產(chǎn)品的AI神器
編輯導(dǎo)語(yǔ):Amazon SageMaker Canvas作為一款優(yōu)秀的機(jī)器學(xué)習(xí)平臺(tái),在做模型預(yù)測(cè)方面有很大的優(yōu)勢(shì),本篇文章作者向我們介紹了Amazon SageMaker Canvas的產(chǎn)品特色以及操作體驗(yàn)等,并結(jié)合具體案例來體驗(yàn)該工具的服務(wù),感興趣的一起來看。
一、業(yè)務(wù)場(chǎng)景
隨著數(shù)據(jù)意識(shí)的提升,數(shù)字化轉(zhuǎn)型和對(duì)數(shù)據(jù)價(jià)值挖掘的訴求越來越強(qiáng),人工智能技術(shù)成為了不可或缺的一部分,如何在業(yè)務(wù)中嘗試AI?
如何用AI技術(shù)為公司、產(chǎn)品、業(yè)務(wù)、客戶創(chuàng)造附加價(jià)值?
如何在IT系統(tǒng)嵌入智能功能,提高業(yè)務(wù)處理效率?
做智能推薦,哪些影響因子應(yīng)該擁有更高的權(quán)重?
這些高頻的疑問擺在眼前。
AI具有天然的高門檻:算力資源稀缺、開發(fā)成本高、模型訓(xùn)練較慢、部署效率低。
行業(yè)數(shù)據(jù)缺乏、應(yīng)用發(fā)展不足、人才培養(yǎng)和儲(chǔ)備不足。
頂尖人才稀缺細(xì)化到機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)門檻高,如何選擇算法、清洗數(shù)據(jù)、訓(xùn)練參數(shù)、評(píng)估指標(biāo)、選擇最佳實(shí)踐,構(gòu)建推薦系統(tǒng)。
每一步都是門學(xué)問,那該怎樣做到低成本的應(yīng)用和有效落地實(shí)踐呢?
站在巨人的肩膀上,借助AI廠商、云服務(wù)廠商的平臺(tái)能力,依托成型的工具是個(gè)不錯(cuò)的辦法。
云計(jì)算龍頭亞馬遜云科技的SageMaker Canvas,用無(wú)代碼理念構(gòu)建機(jī)器學(xué)習(xí)模型,面向業(yè)務(wù)、產(chǎn)品、運(yùn)營(yíng)、數(shù)據(jù)分析師等沒有機(jī)器學(xué)習(xí)經(jīng)驗(yàn)群體,在沒有數(shù)據(jù)技術(shù)團(tuán)隊(duì)情況下,可以用可視化、點(diǎn)擊式用戶界面,輕松探索和構(gòu)建機(jī)器學(xué)習(xí)模型,做出準(zhǔn)確的模型預(yù)測(cè)。
二、Amazon SageMaker Canvas介紹
全球最大的云服務(wù)商亞馬遜云科技在2021 re:Invent大會(huì)上推出機(jī)器學(xué)習(xí)服務(wù)SageMaker新的功能——Canvas,允許產(chǎn)品經(jīng)理、運(yùn)營(yíng)、業(yè)務(wù)分析師以可視化的操作方式,不需要機(jī)器學(xué)習(xí)經(jīng)驗(yàn),也不需要編寫程序代碼,即使沒有算法工程師幫助也可以自動(dòng)清理和組合數(shù)據(jù),并就能構(gòu)建機(jī)器學(xué)習(xí)模型,選出性能最佳的模型,生成精準(zhǔn)的預(yù)測(cè)。
1. 產(chǎn)品特色
- 提供可視化、點(diǎn)擊式界面構(gòu)建 ML 模型并生成準(zhǔn)確的預(yù)測(cè),無(wú)需編寫代碼或事先具備 ML 經(jīng)驗(yàn);
- 可快速連接和訪問來自云和本地?cái)?shù)據(jù)源的數(shù)據(jù)、組合數(shù)據(jù)集并創(chuàng)建統(tǒng)一的數(shù)據(jù)集以訓(xùn)練 ML 模型,會(huì)自動(dòng)檢測(cè)和糾正數(shù)據(jù)錯(cuò)誤并分析 ML 的數(shù)據(jù)準(zhǔn)備情況;
- 使用Amazon SageMaker 的強(qiáng)大 AutoML 技術(shù),能夠根據(jù)數(shù)據(jù)集自動(dòng)創(chuàng)建確定最佳模型;
- 可與Amazon SageMaker Studio 集成,使業(yè)務(wù)分析師可以輕松地與數(shù)據(jù)科學(xué)家共享模型和數(shù)據(jù)集,以便驗(yàn)證和進(jìn)一步優(yōu)化模型。
2. 產(chǎn)品操作——不寫代碼的創(chuàng)建機(jī)器學(xué)習(xí)模型
使用操作極其簡(jiǎn)單,注冊(cè)賬號(hào)后,只需打開 Amazon SageMaker Canvas服務(wù),在上傳數(shù)據(jù)和選擇目標(biāo)后,都是自動(dòng)操作:自動(dòng)清理準(zhǔn)備數(shù)據(jù)——自動(dòng)創(chuàng)建模型——生成并理解預(yù)測(cè),在過程中,平臺(tái)能自動(dòng)糾正上傳數(shù)據(jù)錯(cuò)誤,比如補(bǔ)充缺失值或刪除重復(fù)的行和列。
1)瀏覽導(dǎo)入和連接數(shù)據(jù)
支持瀏覽和導(dǎo)入來自云和本地?cái)?shù)據(jù)源的數(shù)據(jù),可以輕松連接多個(gè)數(shù)據(jù)源、組合數(shù)據(jù)集并創(chuàng)建新的統(tǒng)一數(shù)據(jù)集以訓(xùn)練預(yù)測(cè)模型。
2)選擇目標(biāo)
選擇要預(yù)測(cè)的值。
3)準(zhǔn)備和分析數(shù)據(jù)
內(nèi)置數(shù)據(jù)清理和數(shù)據(jù)準(zhǔn)備,可以自動(dòng)檢測(cè)錯(cuò)誤、清理和分析數(shù)據(jù),最大限度地減少手動(dòng)清理數(shù)據(jù)的需要,例如自動(dòng)填充缺失值等,以確定數(shù)據(jù)已準(zhǔn)備就緒。
4)創(chuàng)建模型
指定模型預(yù)測(cè)的目標(biāo)后點(diǎn)擊按鈕創(chuàng)建ML模型,所需模型即可訓(xùn)練得到??梢允褂肅anvas 測(cè)試數(shù)百個(gè) ML 候選模型,以創(chuàng)建基于您的數(shù)據(jù)集做出最準(zhǔn)確預(yù)測(cè)的模型。
5)生成并理解預(yù)測(cè)
模型預(yù)覽,描述個(gè)人使用數(shù)據(jù)的來源、數(shù)據(jù)集定義、模型選擇與原因、模型效果及預(yù)測(cè)結(jié)果??梢粤私猱?dāng)前模型的準(zhǔn)確性以及每列對(duì)預(yù)測(cè)的相對(duì)影響。
輸入或上傳數(shù)據(jù)即可生成單個(gè)或批量預(yù)測(cè)結(jié)果。生成模型后,還可使用Amazon SageMaker Studio協(xié)作共享模型給數(shù)據(jù)科學(xué)家等合作伙伴,幫助進(jìn)一步審查或者優(yōu)化。
三、SageMaker Canvas電梯廣告業(yè)務(wù)實(shí)踐體驗(yàn)
電梯廣告是以廣告公司同小區(qū)物業(yè)簽訂租用合約,再向廣告主提供廣告投放服務(wù)的形式。
在刊例價(jià)相同的情況下,如何選擇樓宇、優(yōu)化點(diǎn)位,提前預(yù)測(cè)哪些電梯點(diǎn)位會(huì)更容易被廣告主選擇、有更高的上刊率就至關(guān)重要。
即如何通過簽約前獲得的樓盤基礎(chǔ)信息:城市、區(qū)縣、地址、樓盤類型(商住樓、寫字樓、綜合體、住宅)、占地面積、建筑面積、物業(yè)公司、物業(yè)費(fèi)、平均租金、開發(fā)商、交付時(shí)間、容積率、綠化率
入住率、樓棟數(shù)、覆蓋人數(shù)、房?jī)r(jià)等信息,預(yù)測(cè)樓盤的上刊率,判斷是否是優(yōu)質(zhì)樓盤可以簽約。
1)第一步:開啟 Amazon SageMaker Canvas服務(wù)
注冊(cè)賬戶后,搜索進(jìn)入SageMaker控制臺(tái),啟動(dòng)Canvas應(yīng)用程序。
2)第二步:上傳數(shù)據(jù)并選擇目標(biāo)
開啟Canvas實(shí)例后,會(huì)彈出操作介紹,按提示上傳數(shù)據(jù)、連接數(shù)據(jù)。
SageMaker Canvas可對(duì)連接的數(shù)據(jù)顯示預(yù)覽結(jié)果,導(dǎo)入數(shù)據(jù)后,選擇用于預(yù)測(cè)的目標(biāo)數(shù)據(jù)。Canvas會(huì)自動(dòng)選擇適合的問題類型,如現(xiàn)金上刊率,即為數(shù)值預(yù)測(cè),點(diǎn)擊“Quilk build”變開始自動(dòng)構(gòu)建模型。
3)第三步,評(píng)估模型
上傳數(shù)據(jù)并選擇構(gòu)建方式后,Canvas進(jìn)入模型構(gòu)建階段,1500條數(shù)據(jù),8.8萬(wàn)單元格,提示需要1h45min構(gòu)建完畢,實(shí)際16:00 開始,17:35 結(jié)束跟預(yù)估時(shí)間相差不大。
模型構(gòu)建完畢的頁(yè)面,看出模型預(yù)測(cè)與真實(shí)數(shù)值差異在正負(fù)0.065左右,對(duì)現(xiàn)金上刊率影響較大的因子有:點(diǎn)位數(shù)、最高樓層、區(qū)域、總?cè)藬?shù)、真實(shí)房?jī)r(jià)、交房時(shí)間、總戶數(shù)。
給出模型的執(zhí)行情況、每一列數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果所產(chǎn)生的影響情況,切換Scoring選項(xiàng)卡可查看解釋相關(guān)指標(biāo)可視化結(jié)果和指標(biāo)。
4)第四步,生成預(yù)測(cè)
Amazon SageMaker Canvas支持,①Batch 針對(duì)整個(gè)數(shù)據(jù)集進(jìn)行批量預(yù)測(cè) 可以上傳數(shù)據(jù),下載預(yù)測(cè)結(jié)果 預(yù)測(cè)值及可能性,②Single 針對(duì)指定的單一數(shù)值進(jìn)行預(yù)測(cè),直接輸入數(shù)據(jù),更新結(jié)果即可查看預(yù)測(cè)值和相對(duì)于平均預(yù)測(cè)結(jié)果的情況。
四、總結(jié)體驗(yàn)
Amazon SageMaker Canvas像是一個(gè)完備的“中央廚房”,使用Amazon SageMaker的用戶只需準(zhǔn)備好“食材”(數(shù)據(jù))就可以享受菜品(預(yù)測(cè)結(jié)果),不需考慮食材準(zhǔn)備(數(shù)據(jù)清洗)、菜譜選擇(模型選擇)、開始做菜(訓(xùn)練模型),從實(shí)踐后總結(jié)優(yōu)劣勢(shì)如下:
1. 優(yōu)勢(shì)
- 業(yè)務(wù)友好,真0代碼0基礎(chǔ)應(yīng)用,上傳數(shù)據(jù)-選擇指標(biāo)-生成模型,自動(dòng)構(gòu)建可視化一鍵式操作,即可生成高準(zhǔn)確度的機(jī)器學(xué)習(xí)預(yù)測(cè);
- 低成本實(shí)踐,使業(yè)務(wù)工程師能夠開始處理以前由數(shù)據(jù)科學(xué)團(tuán)隊(duì)負(fù)責(zé)的數(shù)據(jù)科學(xué)問題,加快構(gòu)建使用機(jī)器學(xué)習(xí)模型的效率,提高解決方案的創(chuàng)新和數(shù)字化速度;
- 協(xié)作友好,內(nèi)置可共享給算法同事,進(jìn)一步評(píng)估優(yōu)化模型,一個(gè)專為 ML 設(shè)計(jì)的完全集成的開發(fā)環(huán)境;外部可與各種流行的 BI 工具集成;
- 對(duì)外提供為期兩個(gè)月的免費(fèi)試用,最多可訓(xùn)練10個(gè) ML 模型和100萬(wàn)單元格的免費(fèi)數(shù)據(jù)空間。
2. 劣勢(shì)
- 計(jì)費(fèi)方式復(fù)雜,按服務(wù)計(jì)費(fèi)、按流量付費(fèi),不適宜國(guó)情;
- 全稱英文操作&界面交互,習(xí)慣了中文頁(yè)面和交互的會(huì)有點(diǎn)不適應(yīng);
- 單指標(biāo)最優(yōu),適用場(chǎng)景有限,目前只支持:預(yù)測(cè)及影響因子評(píng)估。
作者:申墨揚(yáng)
本文由 @申墨揚(yáng) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CCO協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!