久久久噜噜噜久久天堂,激情五月亚洲综合图区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

下一位數據分析師，可能不是數據分析師——體驗Amazon SageMaker Canvas有感

iCheer

2022-05-10

4 評論 4834 瀏覽 18 收藏

26 分鐘

編輯導語：當機器學習概念與數據分析場景相碰撞時，會產生什么樣的“火花”？也許，用戶可以更加便利地清洗、篩選數據，進行數據洞察，并創建預測模型。本篇文章里，作者結合Amazon SageMaker Canvas這款0代碼機器學習智能工具進行了體驗測評，一起來看看吧。

一、前言

我雖然不是數據分析師，但是因為工作及愛好的原因，經常需要做一些數據的分析。

以前我分析數據的時候，都是先去數據庫寫一段長長的SQL查數據，問題簡單的就加多幾段SQL簡單分析完畢；復雜一點的就下載回來用Excel公式+透視圖；再復雜一點的就上Python+NLP+sklearn；更復雜的只能攤攤手：“哦吼，這個實現不了，提個需求找開發吧”。

最近抱著好奇的心態，體驗了一下亞馬遜云科技號稱“0代碼”的無代碼機器學習智能工具——Amazon SageMaker Canvas（后續簡稱Canvas），最近本來就很流行低代碼、0代碼平臺的概念，這一下子把無比深奧的機器學習給0代碼了，可憐的互聯網程序猿們和數據分析師是不是又要面臨新N輪的失業了。

百度指數-關鍵詞：低代碼

二、機器學習與數據分析

大部分PM大佬們，沒看過機器學習跑，但肯定或多或少做過數據分析的活，甚至不少公司還要求產品經理和運營、市場小伙伴們一起背著各種用戶量、訂單量、訂單額的OKR/KPI。

用戶量有多少，都是怎么來的？下單的人那么多，他們有什么共同屬性？一份問卷發下去，用戶反饋的結果如何？這些都是非常常見的數據分析問題。

我們通過研發協助，或者系統功能，導出對應數據后，一般在Excel、SPSS或者專業的BI軟件中完成數據洞察與分析、繪制圖表等工作，這就是最常見的數據分析過程。

其中最頭疼的，就是如何看懂這些數據、剖析出數據背后的問題。遇到一些復雜的問題時，需要產品經理、運營或更專業的數據分析師，掌握一定的統計學方法，同時對業務背景和行業知識有深厚的理解，才可能撥開迷霧，通過數據接近真相。

一個人學習、積累經驗的過程是漫長的、限制重重的，但如果讓高速、大容量的電腦來代替人去學習和積累經驗，通過大數據對電腦進行訓練，然后讓電腦對問題做出判斷，是否就能培訓出“電腦專家”呢？

答案是肯定的，機器學習就是一種讓電腦像人一樣去學習、積累經驗、嘗試解決問題的方案。

機器本身并不明白什么業務邏輯，于是我們要給機器“灌輸”大量的數據，機器通過決策樹、支持向量機、神經網絡、深度學習等算法去不斷“刷題”訓練，形成類似人的“意識”，最后對新來的數據產生一定的預測能力。

例如一位房地產老中介，可以通過幾十年的經驗，在看到一個新的顧客時，快速判斷該顧客的購買意向一樣。機器學習完大量的交易數據后，當有一個新的樣本進入時，機器就能快速判斷成交的概率。

人需要數年時間、在行業里摸爬滾打加上大量前人經驗教訓，才可能精通一門技藝，無論是產品經理還是數據分析師、運營等，皆是如此。

對比人的學習過程，機器一樣需要大量的“經驗”即數據為基礎，但是通過大量的CPU、GPU算力，學習過程可以縮短到數個小時內完成，只要樣本量足夠大，機器的分析能力一點都不比人差，就像著名的電腦圍棋選手AlphaGo一樣。

關鍵在機器的經驗傳承，就是“Ctrl+C、Ctrl+V”的這么簡單的事情，支持不斷迭代，而人的經驗傳承、知識升級就完成沒法跟機器比了。數據分析工作更講究基于客觀事實的數據基礎，相對比設計、策劃等創意類工作，沒那么感性，這就讓本身“理性”的機器有了先天的優勢。

三、機器學習能做什么

我們熟悉的特斯拉汽車自動駕駛，就是通過機器學習的方法讓車載電腦學會開車。但是對于大部分產品經理，這種需求都是遙不可及的，那日常工作中，機器學習對我們有什么用？

換個角度想一下：

當你糾結公司產品最近大量投入廣告，但是訂單量卻一直不理想時；
每舉辦完一個活動，運營就得花幾天在那里絞盡腦汁想區分出作弊的用戶時；
運維每到活動發布后，就提示疑似有大量黑產刷單時。

產品經理會想，如果有一個工具，可以幫助我們實現精準推薦、分析用戶作弊概率、預測黑產風險等，那該多少??！這時候機器學習就離我們不遠了。

我們可以通過Canvas的一些官方示例，看看機器學習在日常工作中能幫上什么忙：

1）客戶成交分析

在銀行辦理業務的過程中，通過客戶的年齡、工作、婚姻、教育、住房、貸款、違約，還有宏觀經濟的居民消費指數、消費者信心指數、就業指數等信息，判斷客戶是否會購買存款證（Certificate of Deposit，簡稱CD，一種定期存款）。

這是一個典型的二元分析，即通過多個條件綜合判斷結果是、還是不是。例如電商就可以以此分析一款產品用戶會買，還是不買；快遞預測是否能準時送達。

2）街區房價分析

通過街區地址坐標、該街區的房屋平均年齡、房屋數量、人口、家庭數量、家庭收入中位數等信息，分析該區域房屋價格。

這是一個常見的回歸分析案例，通過一系列參數，最終得出一個數據作為結果。常見應用場景可以是成交價格預測、活動帶來的用戶增長效果預測等。

3）基于日期的銷量預測

通過日期、銷售額、是否有活動、是否是學校放假，然后判斷一個具體日期或時間段的銷量。這是一種基于時間的序列預測，常見的應用場景是用戶量走勢預測、成交量走勢預測、風險數量預測等。

4）貸款違約風險預測

通過貸款人的貸款金額、貸款周期、貸款利息、貸款目的，貸款人的就業年限、房屋抵押情況、收入水平等數據，分析該用戶是正常還款中、完成還款、還是會違約產生壞賬（charged off）。

與案例1中的客戶成交分析不同的是，此時結果是3個，甚至可能是多個，這種屬于“多類分類問題”，相對于非黑即白的二元分析，借助此模式，可以用于更豐富的場景預測。例如我們有多套房子，可以用來判斷用戶最可能對其中哪一套感興趣；又或者用于把用戶按消費欲望自動分級、按某種用戶畫像自動歸類等。

除了Canvas官方案例外，我還整理了一些在電商運營中，售前、中、后不同階段，機器學習可以助力的地方：

可以看出機器學習可以介入的機會很多，就算現階段還不能完全取代人工運營，也可以有效為運營、客服、數據分析等崗位，發現問題和提供建議，從而整體提高營銷能力。

四、實際體驗

接下來我們將通過一份用戶購買數據，通過Canvas，實際體驗一番，看看0代碼的機器學習平臺究竟是怎么樣的。

測試項目：某內購商城，將要舉辦一個活動，希望把幾款熱銷的商品推廣給更多的員工購買。

測試目的：預測每位員工最可能購買的商品，然后進行精準推送，提高轉化率。

樣本介紹：從系統中導出了5款活動商品的歷史購買記錄，包括了購買者所使用的手機品牌、客戶端類型、性別、司齡、年齡、婚姻、戶口、學歷、職位、職級、工作城市、所屬部門等信息，讓機器學習不同類型的員工更可能選購哪款商品，根據預測結果，向公司其余員工定向推廣具體的商品，提高轉化率。

數據量：數據清洗后共9113條有效數據。

1. 創建賬號

注冊一個亞馬遜云科技的個人賬號，完成存儲空間S3和Canvas的初始化。

2. 正式體驗Amazon SageMaker Canvas

Amazon SageMaker Canvas作為一款0代碼機器學習平臺，可以看到整個平臺界面十分的簡潔、時尚，完全不會讓人有對代碼或者機器學習深奧知識的恐懼感，視覺效果滿分。

1）創建模型

創建一個Model，即創建了一個項目。

2）導入數據

為項目導入需要讓機器學習的數據。

Canvas的數據需要utf-8格式的CSV，且先上傳到S3儲存中，才能在此導入。

除了導入單個CSV數據集，Canvas還支持對多個CSV進行可視化的聯表操作、導入來自Amazon Redshift和Snowflake的數據，并進行SQL操作，提供更豐富的ETL數據處理能力。

數據安全：如果需要學習訓練的數據中，包含了公司的敏感信息，請提前完成脫敏，避免不必要的數據泄露。

3）預覽字段和選擇目標

查看導入的數據、選擇需要作為預測結果的字段。

Select a column to predict：選擇一列字段作為預測對象，選擇好后，Canvas會自動識別該列數據的類型，是數值、二元對象、還是多元對象等，如果識別不正確，可以點擊Change type手動修改。

其他作為被分析對象的列，Canvas會自動檢測它的數據類型，但是有一定概率識別不準確，且不支持修改，所以需要檢查清楚，并在數據源頭解決問題，例如某零件的型號格式是個數字組合，但是Canvas就會將其當作數值處理了，從而影響了機器學習準確性。

此時我選擇商品名稱作為最終的預測對象，后續系統就會自動分析其他字段與商品名稱之間的關系，即分析不同的用戶屬性，對最后購買商品的影響。

4）預覽模型

通過點擊Preview model，只需要稍等幾十秒到幾分鐘（取決于字段的數據和數據總量），就可以看到系統的預估準確率、以及每個字段的影響權重。Canvas會自動完成傳統機器學習過程中，從樣本庫切分訓練集、測試集的過程，自動使用測試集的完成準確率評估，降低了機器學習的操作門檻。

在過往數據模型建設的過程中，需要大量用戶調研、經驗總結、甚至專家評審的數據建模過程，Canvas就用了幾分鐘就完成了！極大地降低了數據分析的門檻（甚至完全沒門檻了，會認字看結論即可）。

如果我們發現一些字段的影響權重非常低，對結果幾乎毫無影響，可以直接在字段列表中去掉這些值，這樣可以提高后續分析的速度，甚至提高預測的準確性。有些字段系統可能會認為對結果影響不大，但是我們從經驗或常識認為并非如此，則可以選擇性保留。

每次調整好要分析的字段后，可以點擊一次Preview model，看看準確率是否有所變化，從而實現優化模型的過程。

5）模型構建

Canvas提供了Quick快速和Standard標準兩種模式，快速一般需要2-15分鐘，標準需要2-4個小時。

標準和快速的區別是，標準的預測準確率會高些，而且支持分享給Amazon SageMaker Studio——一款面向數據科學家、研發工程師的，代碼化機器學習平臺，讓專業用戶可以對這個模型調優、用于生產環境等。如果只是想試用，使用Quick模式將高效得多。

我嘗試了兩次標準的建模過程，發現數據量超過十萬行以上，界面預估的時間就不太準。如果只是想體驗，使用Quick build即可。

Canvas可以讓用戶不再需要關注機器學習的策略和算法的問題，極大地降低了機器學習的入門門檻。

策略：用什么準則去學習、確定損失函數；
算法：此處的算法指狹義的算法，如最小二乘法、梯度下降、上升法等，是從數學上如何解決問題的算法。

廣義的算法，就是我們在學習機器學習過程中經常會聽到的名詞，如線性回歸、決策樹、貝葉斯、支持向量機、神經網絡等算法，其實囊括了上述策略和算法這兩者的內容。

6）訓練結果

等待機器學習完畢，就可以看到系統分析出來的預測準確率。

在概覽Overview Tab里，可以看到每一個指標的影響系數，點擊具體指標，可以查看該指標的枚舉值，對預測結果的影響系數平均/最高/75%/中位/25%/最小值，通過概覽數據，可以快速了解不同的字段對于最終結果的值的具體影響。

機器自學完成了對數據的理解和影響權重的判斷，并生成了精美的權重影響表格，以往需要數據分析師或者運營同事花上個半天甚至幾天時間的工作，全自動化了。

這一步我們看到，機器認為員工所屬城市是影響商品購買決策的主要原因，其次是職級、訂單來源（設備）、職務等信息?；橐?、戶口、學歷等因素對購買決策影響非常小。

本次預測，系統提示的成功率是38.8%，看似不太理想，但換個思路：向三個人推送不同的商品，有一個人會喜歡這款商品，這個結果還是很不錯的，畢竟我們有五款商品，如果是隨機盲推的話，準確率就只有20%了。如果數據量更大，并采用標準的數據建模方式，應該能獲得更好的預測準確率。

點擊得分Scroing Tab，可以查看預測結果和實際結果的區別，以及對于每個預測結果的準確率，點擊高級指標Advanced metrics，可以查看到更多高級指標。

由于預測對象類型的不一樣，高級指標也不一樣，可用于給數據分析師進行更高階的預測效果判斷使用。

7）模型預測

Canvas支持批量預測和單個預測的功能，如果我們只是想測試預測效果，或者被預測對象較少或較低頻出現時，可以直接使用單個預測，輸入已知的屬性，即可完成預測過程。

此處我輸入用戶信息后，系統預測該用戶購買商品A的意愿最大，以及其他各商品的購買可能性。

批量預測，需要先將需要預測的數據集上傳到S3儲存中，再在此處選取，然后完成批量預測和結果下載。批量預測更適合商業化場景使用，可以對多個數據同時完成預測，預測結果可以用于精準推薦、定向營銷。

營銷的過程中，我們還可以把新的產生的訂單數據和舊的整合在一起，再建一個機器學習項目，不斷哺育機器學習樣本、提高預測精準性。

8）版本管理

新建版本后，可以切換不同的字段，但是不允許修改導入用于機器學習的數據集。如果我們認為預測結果、準確率不太理想，可以嘗試創建新的版本，對上傳的數據集，選擇不一樣的字段，然后再重新機器學習訓練，構建獲得一個新的模型，在多個模型間對比，找到效果最好的方案。

9）模型分享

如果每次數據預測都需要先導出要數據，然后再上傳到S3、再導入Amazon SageMaker Canvas，然后預測、導出結果，需求頻率一高，必然導致效率低下。

通過標準模式構建出來的模型，支持分享到Amazon SageMaker Studio，讓研發和分析師進行更高階的開發，最終將機器學習的結果應用于業務生產過程中，使預測能力功能化、產品化。

3. 計費方式

根據Amazon SageMaker Canvas的介紹，收費是使用會話費用+模型訓練費用綜合計費。即按使用系統的時長+模型的數據量兩個維度雙重計費。

Amazon SageMaker Canvas為新人提供了免費試用套餐：免費套餐為期兩個月。該免費套餐包括每月最多 750 小時的交互式會話時間，以及每月最多 10 個模型創建請求，每個模型創建請求最多 100 萬個單元格。如果只是用于試用，應該綽綽有余。

五、體驗總結

在評價Amazon SageMaker Canvas好壞前，我們要看它到底解決了什么問題：Canvas相對比傳統的機器學習平臺，好處是無需編寫任何代碼，無需學習那些高深的數據分析方法和機器學習算法，就能實現對數據的機器學習和預測。

Canvas將機器學習的門檻大幅度降低，整個操作流程（注冊和初始化除外）甚至比很多Excel中的公式都更簡單，讓人可以輕松上手。Canvas還提供了工作流對接，做好的模型可以給工程師進一步使用，這就讓該平臺不僅僅是“玩玩而已”，做出來的東西是可以真正應用到生產作業中的。

隨著機器學習相關技術的不斷發展，機器學習在很多行業已展露出逐步取代人工的態勢，未來的科技發展勢必離不開機器學習。如何降低門檻，讓更多人投入機器學習工作的懷抱中、擴大機器學習的影響面，將是一個全新的問題。

目前很多耳熟能詳的科技巨頭，如微軟、谷歌、蘋果等，都相繼推出了自己的0代碼/低代碼機器學習平臺，受限于數據安全、語言門檻、網絡訪問以及其他一些局限問題，其中很多平臺還處于一個不溫不火的階段。

但是，通過對Canvas的體驗，可以斷定在可期的未來，機器學習大概率會成為一種可以速成的技能，只不過是有人專門研究數據收集，有人研究如何構建模型，有人挑選算法、有人選擇策略……就像現在的互聯網IT分工精細化一樣的過程。

有了這樣快捷的工具后，用戶將無法感知如何預防過擬合、如何進行算法調優提效等傳統機器學習過程中常見的問題。不需要太多的統計學和行業知識，就能完成數據建模和預測，還可能導致用戶對于機器學習的過度依賴，從而忽視了行業知識的沉淀和人在此過程中的重要意義。但是這些問題，隨著0代碼機器學習平臺的不斷升級迭代，肯定會逐步得以解決。

最后，回歸本篇的題目，下一個數據分析師，何必是數據分析師，借助更高級的0代碼機器學習平臺，機器學習平臺可能就像Axure、墨刀、XD等軟件一樣流行，簡單上手，人人都是數據分析師。

#專欄作家#

iCheer，公眾號：云主子，人人都是產品經理專欄作家。房地產/物業行業產品經理，Python編程愛好者，養貓發燒友。

本文原創發布于人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基于CC0協議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

iCheer

產品經理，Python愛好者，貓の友

23篇作品 298726總閱讀量

2023數字媒體趨勢報告

10-273777 瀏覽

面對新業務，設計師如何快速接入？

02-073109 瀏覽

程序猿與產品經理溝通需求的分歧點！

10-262634 瀏覽

AGI時代的關鍵變化和機遇：深化洞察力，提升產品管理能力

07-272466 瀏覽

十年大廠產品專家教你：三步搞定年度目標

02-038296 瀏覽

評論

馮小剛

你真弱

最近來自北京回復
馮小剛

死廢物，裝你媽逼

最近來自北京回復
馮小剛

丈母娘：許可你就是個廢物，蛀蟲，騙我首付錢，能力不行娶村姑不好嗎

最近來自北京回復
Jeff

看了博主的文章，感覺未來數據分析師的發展方向應該是數據產品或行業專家，一是因為數據技術已成熟，關于數據的一切復雜操作都可以沉淀為自動化系統，這個系統需要有既懂產品又懂數據的數據產品來牽頭設計；二是因為自動化系統一旦大規模應用，數據分析師就不用埋頭于數據本身（比如取數、清洗等），有更多的時間來解讀數據，給出觀點，即成為有數據sense的行業專家。

最近來自北京回復