下一位數據分析師,可能不是數據分析師——體驗Amazon SageMaker Canvas有感
編輯導語:當機器學習概念與數據分析場景相碰撞時,會產生什么樣的“火花”?也許,用戶可以更加便利地清洗、篩選數據,進行數據洞察,并創建預測模型。本篇文章里,作者結合Amazon SageMaker Canvas這款0代碼機器學習智能工具進行了體驗測評,一起來看看吧。
一、前言
我雖然不是數據分析師,但是因為工作及愛好的原因,經常需要做一些數據的分析。
以前我分析數據的時候,都是先去數據庫寫一段長長的SQL查數據,問題簡單的就加多幾段SQL簡單分析完畢;復雜一點的就下載回來用Excel公式+透視圖;再復雜一點的就上Python+NLP+sklearn;更復雜的只能攤攤手:“哦吼,這個實現不了,提個需求找開發吧”。
最近抱著好奇的心態,體驗了一下亞馬遜云科技號稱“0代碼”的無代碼機器學習智能工具——Amazon SageMaker Canvas(后續簡稱Canvas),最近本來就很流行低代碼、0代碼平臺的概念,這一下子把無比深奧的機器學習給0代碼了,可憐的互聯網程序猿們和數據分析師是不是又要面臨新N輪的失業了。
百度指數-關鍵詞:低代碼
二、機器學習與數據分析
大部分PM大佬們,沒看過機器學習跑,但肯定或多或少做過數據分析的活,甚至不少公司還要求產品經理和運營、市場小伙伴們一起背著各種用戶量、訂單量、訂單額的OKR/KPI。
用戶量有多少,都是怎么來的?下單的人那么多,他們有什么共同屬性?一份問卷發下去,用戶反饋的結果如何?這些都是非常常見的數據分析問題。
我們通過研發協助,或者系統功能,導出對應數據后,一般在Excel、SPSS或者專業的BI軟件中完成數據洞察與分析、繪制圖表等工作,這就是最常見的數據分析過程。
其中最頭疼的,就是如何看懂這些數據、剖析出數據背后的問題。遇到一些復雜的問題時,需要產品經理、運營或更專業的數據分析師,掌握一定的統計學方法,同時對業務背景和行業知識有深厚的理解,才可能撥開迷霧,通過數據接近真相。
一個人學習、積累經驗的過程是漫長的、限制重重的,但如果讓高速、大容量的電腦來代替人去學習和積累經驗,通過大數據對電腦進行訓練,然后讓電腦對問題做出判斷,是否就能培訓出“電腦專家”呢?
答案是肯定的,機器學習就是一種讓電腦像人一樣去學習、積累經驗、嘗試解決問題的方案。
機器本身并不明白什么業務邏輯,于是我們要給機器“灌輸”大量的數據,機器通過決策樹、支持向量機、神經網絡、深度學習等算法去不斷“刷題”訓練,形成類似人的“意識”,最后對新來的數據產生一定的預測能力。
例如一位房地產老中介,可以通過幾十年的經驗,在看到一個新的顧客時,快速判斷該顧客的購買意向一樣。機器學習完大量的交易數據后,當有一個新的樣本進入時,機器就能快速判斷成交的概率。
人需要數年時間、在行業里摸爬滾打加上大量前人經驗教訓,才可能精通一門技藝,無論是產品經理還是數據分析師、運營等,皆是如此。
對比人的學習過程,機器一樣需要大量的“經驗”即數據為基礎,但是通過大量的CPU、GPU算力,學習過程可以縮短到數個小時內完成,只要樣本量足夠大,機器的分析能力一點都不比人差,就像著名的電腦圍棋選手AlphaGo一樣。
關鍵在機器的經驗傳承,就是“Ctrl+C、Ctrl+V”的這么簡單的事情,支持不斷迭代,而人的經驗傳承、知識升級就完成沒法跟機器比了。數據分析工作更講究基于客觀事實的數據基礎,相對比設計、策劃等創意類工作,沒那么感性,這就讓本身“理性”的機器有了先天的優勢。
三、機器學習能做什么
我們熟悉的特斯拉汽車自動駕駛,就是通過機器學習的方法讓車載電腦學會開車。但是對于大部分產品經理,這種需求都是遙不可及的,那日常工作中,機器學習對我們有什么用?
換個角度想一下:
- 當你糾結公司產品最近大量投入廣告,但是訂單量卻一直不理想時;
- 每舉辦完一個活動,運營就得花幾天在那里絞盡腦汁想區分出作弊的用戶時;
- 運維每到活動發布后,就提示疑似有大量黑產刷單時。
產品經理會想,如果有一個工具,可以幫助我們實現精準推薦、分析用戶作弊概率、預測黑產風險等,那該多少??!這時候機器學習就離我們不遠了。
我們可以通過Canvas的一些官方示例,看看機器學習在日常工作中能幫上什么忙:
1)客戶成交分析
在銀行辦理業務的過程中,通過客戶的年齡、工作、婚姻、教育、住房、貸款、違約,還有宏觀經濟的居民消費指數、消費者信心指數、就業指數等信息,判斷客戶是否會購買存款證(Certificate of Deposit,簡稱CD,一種定期存款)。
這是一個典型的二元分析,即通過多個條件綜合判斷結果是、還是不是。例如電商就可以以此分析一款產品用戶會買,還是不買;快遞預測是否能準時送達。
2)街區房價分析
通過街區地址坐標、該街區的房屋平均年齡、房屋數量、人口、家庭數量、家庭收入中位數等信息,分析該區域房屋價格。
這是一個常見的回歸分析案例,通過一系列參數,最終得出一個數據作為結果。常見應用場景可以是成交價格預測、活動帶來的用戶增長效果預測等。
3)基于日期的銷量預測
通過日期、銷售額、是否有活動、是否是學校放假,然后判斷一個具體日期或時間段的銷量。這是一種基于時間的序列預測,常見的應用場景是用戶量走勢預測、成交量走勢預測、風險數量預測等。
4)貸款違約風險預測
通過貸款人的貸款金額、貸款周期、貸款利息、貸款目的,貸款人的就業年限、房屋抵押情況、收入水平等數據,分析該用戶是正常還款中、完成還款、還是會違約產生壞賬(charged off)。
與案例1中的客戶成交分析不同的是,此時結果是3個,甚至可能是多個,這種屬于“多類分類問題”,相對于非黑即白的二元分析,借助此模式,可以用于更豐富的場景預測。例如我們有多套房子,可以用來判斷用戶最可能對其中哪一套感興趣;又或者用于把用戶按消費欲望自動分級、按某種用戶畫像自動歸類等。
除了Canvas官方案例外,我還整理了一些在電商運營中,售前、中、后不同階段,機器學習可以助力的地方:
可以看出機器學習可以介入的機會很多,就算現階段還不能完全取代人工運營,也可以有效為運營、客服、數據分析等崗位,發現問題和提供建議,從而整體提高營銷能力。
四、實際體驗
接下來我們將通過一份用戶購買數據,通過Canvas,實際體驗一番,看看0代碼的機器學習平臺究竟是怎么樣的。
測試項目:某內購商城,將要舉辦一個活動,希望把幾款熱銷的商品推廣給更多的員工購買。
測試目的:預測每位員工最可能購買的商品,然后進行精準推送,提高轉化率。
樣本介紹:從系統中導出了5款活動商品的歷史購買記錄,包括了購買者所使用的手機品牌、客戶端類型、性別、司齡、年齡、婚姻、戶口、學歷、職位、職級、工作城市、所屬部門等信息,讓機器學習不同類型的員工更可能選購哪款商品,根據預測結果,向公司其余員工定向推廣具體的商品,提高轉化率。
數據量:數據清洗后共9113條有效數據。
1. 創建賬號
注冊一個亞馬遜云科技的個人賬號,完成存儲空間S3和Canvas的初始化。
2. 正式體驗Amazon SageMaker Canvas
Amazon SageMaker Canvas作為一款0代碼機器學習平臺,可以看到整個平臺界面十分的簡潔、時尚,完全不會讓人有對代碼或者機器學習深奧知識的恐懼感,視覺效果滿分。
1)創建模型
創建一個Model,即創建了一個項目。
2)導入數據
為項目導入需要讓機器學習的數據。
Canvas的數據需要utf-8格式的CSV,且先上傳到S3儲存中,才能在此導入。
除了導入單個CSV數據集,Canvas還支持對多個CSV進行可視化的聯表操作、導入來自Amazon Redshift和Snowflake的數據,并進行SQL操作,提供更豐富的ETL數據處理能力。
數據安全:如果需要學習訓練的數據中,包含了公司的敏感信息,請提前完成脫敏,避免不必要的數據泄露。
3)預覽字段和選擇目標
查看導入的數據、選擇需要作為預測結果的字段。
Select a column to predict:選擇一列字段作為預測對象,選擇好后,Canvas會自動識別該列數據的類型,是數值、二元對象、還是多元對象等,如果識別不正確,可以點擊Change type手動修改。
其他作為被分析對象的列,Canvas會自動檢測它的數據類型,但是有一定概率識別不準確,且不支持修改,所以需要檢查清楚,并在數據源頭解決問題,例如某零件的型號格式是個數字組合,但是Canvas就會將其當作數值處理了,從而影響了機器學習準確性。
此時我選擇商品名稱作為最終的預測對象,后續系統就會自動分析其他字段與商品名稱之間的關系,即分析不同的用戶屬性,對最后購買商品的影響。
4)預覽模型
通過點擊Preview model,只需要稍等幾十秒到幾分鐘(取決于字段的數據和數據總量),就可以看到系統的預估準確率、以及每個字段的影響權重。Canvas會自動完成傳統機器學習過程中,從樣本庫切分訓練集、測試集的過程,自動使用測試集的完成準確率評估,降低了機器學習的操作門檻。
在過往數據模型建設的過程中,需要大量用戶調研、經驗總結、甚至專家評審的數據建模過程,Canvas就用了幾分鐘就完成了!極大地降低了數據分析的門檻(甚至完全沒門檻了,會認字看結論即可)。
如果我們發現一些字段的影響權重非常低,對結果幾乎毫無影響,可以直接在字段列表中去掉這些值,這樣可以提高后續分析的速度,甚至提高預測的準確性。有些字段系統可能會認為對結果影響不大,但是我們從經驗或常識認為并非如此,則可以選擇性保留。
每次調整好要分析的字段后,可以點擊一次Preview model,看看準確率是否有所變化,從而實現優化模型的過程。
5)模型構建
Canvas提供了Quick快速和Standard標準兩種模式,快速一般需要2-15分鐘,標準需要2-4個小時。
標準和快速的區別是,標準的預測準確率會高些,而且支持分享給Amazon SageMaker Studio——一款面向數據科學家、研發工程師的,代碼化機器學習平臺,讓專業用戶可以對這個模型調優、用于生產環境等。如果只是想試用,使用Quick模式將高效得多。
我嘗試了兩次標準的建模過程,發現數據量超過十萬行以上,界面預估的時間就不太準。如果只是想體驗,使用Quick build即可。
Canvas可以讓用戶不再需要關注機器學習的策略和算法的問題,極大地降低了機器學習的入門門檻。
- 策略:用什么準則去學習、確定損失函數;
- 算法:此處的算法指狹義的算法,如最小二乘法、梯度下降、上升法等,是從數學上如何解決問題的算法。
廣義的算法,就是我們在學習機器學習過程中經常會聽到的名詞,如線性回歸、決策樹、貝葉斯、支持向量機、神經網絡等算法,其實囊括了上述策略和算法這兩者的內容。
6)訓練結果
等待機器學習完畢,就可以看到系統分析出來的預測準確率。
在概覽Overview Tab里,可以看到每一個指標的影響系數,點擊具體指標,可以查看該指標的枚舉值,對預測結果的影響系數平均/最高/75%/中位/25%/最小值,通過概覽數據,可以快速了解不同的字段對于最終結果的值的具體影響。
機器自學完成了對數據的理解和影響權重的判斷,并生成了精美的權重影響表格,以往需要數據分析師或者運營同事花上個半天甚至幾天時間的工作,全自動化了。
這一步我們看到,機器認為員工所屬城市是影響商品購買決策的主要原因,其次是職級、訂單來源(設備)、職務等信息?;橐?、戶口、學歷等因素對購買決策影響非常小。
本次預測,系統提示的成功率是38.8%,看似不太理想,但換個思路:向三個人推送不同的商品,有一個人會喜歡這款商品,這個結果還是很不錯的,畢竟我們有五款商品,如果是隨機盲推的話,準確率就只有20%了。如果數據量更大,并采用標準的數據建模方式,應該能獲得更好的預測準確率。
點擊得分Scroing Tab,可以查看預測結果和實際結果的區別,以及對于每個預測結果的準確率,點擊高級指標Advanced metrics,可以查看到更多高級指標。
由于預測對象類型的不一樣,高級指標也不一樣,可用于給數據分析師進行更高階的預測效果判斷使用。
7)模型預測
Canvas支持批量預測和單個預測的功能,如果我們只是想測試預測效果,或者被預測對象較少或較低頻出現時,可以直接使用單個預測,輸入已知的屬性,即可完成預測過程。
此處我輸入用戶信息后,系統預測該用戶購買商品A的意愿最大,以及其他各商品的購買可能性。
批量預測,需要先將需要預測的數據集上傳到S3儲存中,再在此處選取,然后完成批量預測和結果下載。批量預測更適合商業化場景使用,可以對多個數據同時完成預測,預測結果可以用于精準推薦、定向營銷。
營銷的過程中,我們還可以把新的產生的訂單數據和舊的整合在一起,再建一個機器學習項目,不斷哺育機器學習樣本、提高預測精準性。
8)版本管理
新建版本后,可以切換不同的字段,但是不允許修改導入用于機器學習的數據集。如果我們認為預測結果、準確率不太理想,可以嘗試創建新的版本,對上傳的數據集,選擇不一樣的字段,然后再重新機器學習訓練,構建獲得一個新的模型,在多個模型間對比,找到效果最好的方案。
9)模型分享
如果每次數據預測都需要先導出要數據,然后再上傳到S3、再導入Amazon SageMaker Canvas,然后預測、導出結果,需求頻率一高,必然導致效率低下。
通過標準模式構建出來的模型,支持分享到Amazon SageMaker Studio,讓研發和分析師進行更高階的開發,最終將機器學習的結果應用于業務生產過程中,使預測能力功能化、產品化。
3. 計費方式
根據Amazon SageMaker Canvas的介紹,收費是使用會話費用+模型訓練費用綜合計費。即按使用系統的時長+模型的數據量兩個維度雙重計費。
Amazon SageMaker Canvas為新人提供了免費試用套餐:免費套餐為期兩個月。該免費套餐包括每月最多 750 小時的交互式會話時間,以及每月最多 10 個模型創建請求,每個模型創建請求最多 100 萬個單元格。如果只是用于試用,應該綽綽有余。
五、體驗總結
在評價Amazon SageMaker Canvas好壞前,我們要看它到底解決了什么問題:Canvas相對比傳統的機器學習平臺,好處是無需編寫任何代碼,無需學習那些高深的數據分析方法和機器學習算法,就能實現對數據的機器學習和預測。
Canvas將機器學習的門檻大幅度降低,整個操作流程(注冊和初始化除外)甚至比很多Excel中的公式都更簡單,讓人可以輕松上手。Canvas還提供了工作流對接,做好的模型可以給工程師進一步使用,這就讓該平臺不僅僅是“玩玩而已”,做出來的東西是可以真正應用到生產作業中的。
隨著機器學習相關技術的不斷發展,機器學習在很多行業已展露出逐步取代人工的態勢,未來的科技發展勢必離不開機器學習。如何降低門檻,讓更多人投入機器學習工作的懷抱中、擴大機器學習的影響面,將是一個全新的問題。
目前很多耳熟能詳的科技巨頭,如微軟、谷歌、蘋果等,都相繼推出了自己的0代碼/低代碼機器學習平臺,受限于數據安全、語言門檻、網絡訪問以及其他一些局限問題,其中很多平臺還處于一個不溫不火的階段。
但是,通過對Canvas的體驗,可以斷定在可期的未來,機器學習大概率會成為一種可以速成的技能,只不過是有人專門研究數據收集,有人研究如何構建模型,有人挑選算法、有人選擇策略……就像現在的互聯網IT分工精細化一樣的過程。
有了這樣快捷的工具后,用戶將無法感知如何預防過擬合、如何進行算法調優提效等傳統機器學習過程中常見的問題。不需要太多的統計學和行業知識,就能完成數據建模和預測,還可能導致用戶對于機器學習的過度依賴,從而忽視了行業知識的沉淀和人在此過程中的重要意義。但是這些問題,隨著0代碼機器學習平臺的不斷升級迭代,肯定會逐步得以解決。
最后,回歸本篇的題目,下一個數據分析師,何必是數據分析師,借助更高級的0代碼機器學習平臺,機器學習平臺可能就像Axure、墨刀、XD等軟件一樣流行,簡單上手,人人都是數據分析師。
#專欄作家#
iCheer,公眾號:云主子,人人都是產品經理專欄作家。房地產/物業行業產品經理,Python編程愛好者,養貓發燒友。
本文原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
你真弱
死廢物,裝你媽逼
丈母娘:許可你就是個廢物,蛀蟲,騙我首付錢,能力不行娶村姑不好嗎
看了博主的文章,感覺未來數據分析師的發展方向應該是數據產品或行業專家,一是因為數據技術已成熟,關于數據的一切復雜操作都可以沉淀為自動化系統,這個系統需要有既懂產品又懂數據的數據產品來牽頭設計;二是因為自動化系統一旦大規模應用,數據分析師就不用埋頭于數據本身(比如取數、清洗等),有更多的時間來解讀數據,給出觀點,即成為有數據sense的行業專家。