今天你低代碼了嗎?

3 評論 5221 瀏覽 6 收藏 15 分鐘

編輯導語:當下,各行各業都在尋找可以降本增效的效率途徑,AI人工智能、機器學習等概念也被廣泛應用至業務中;而亞馬遜云科技推出的0代碼機器學習智能工具——Amazon SageMaker Canvas,就是一款可以應用于數據分析業務中的工具。本文作者就對這款工具做了體驗測評,一起來看。

隨著人工智能技術的發展和普及,人們對機器學習和數據分析的需求一直居高不下。幾乎沒有哪個行業在交易中不涉及機器學習。

在這一背景下,與許多大型科技公司一樣,亞馬遜云科技也推出了一款無低代碼機器學習平臺——Amazon SageMaker Canvas,今天就讓我們來試用一下吧。

一、測評說明

  • 測評人:剛畢業一年的B端產品經理,碩士畢業,計算機專業,機器學習方向;
  • 測評對象:Amazon SageMaker Canvas(一款低代碼機器學習平臺);
  • 測評目的:對產品的可操作性(用起來方不方便)、預測準確性(好不好用)進行測評。

二、使用體驗測評

1. 對沒有機器學習知識的人友好

作為一個有機器學習專業知識背景的新用戶,我從最初的賬號注冊,到最終使用SageMaker Canvas構建模型,花費了不過半天時間,非但不用在本地電腦裝各種軟件、各種庫、各種包,還省去了幾百行的機器學習代碼,整個過程無需編碼即可構建機器學習模型,完成對本地數據的預測分析。

對比過去和現在,如果你想使用機器學習算法對手頭上的數據進行分類、預測:

表1 過去 VS. 現在

2. 界面風格簡潔

以產品經理的視角看,Amazon SageMaker Canvas每個頁面的排版樣式、控件設計及交互效果都非常的通俗易懂。

例如,登錄Amazon SageMaker Canvas的工作臺后,能在其中查看該賬戶下所有已創建模型和已導入的數據集。其中,模型列表支持兩種展現形式:卡片列表和表格列表。

我個人比較喜歡卡片列表,因為卡片列表相比于表格列表,樣式要活潑很多,能讓頁面顯得不那么死板和單調。接著進入一個模型之后,會看到選擇數據>>模型構建>>模型分析>>模型預測這四個步驟,這能指引用戶更便捷地完成模型構建工作。

圖1 模型列表—卡片式

圖2 訓練模型的步驟

三、功能測評

低代碼作為一種技術手段,自然有它獨特的優勢,可低代碼機器學習平臺的預測準確性相較于常規的python編程語言會有所下降嗎?

下文將從分類、預測兩大類場景使用Amazon SageMaker Canvas構建模型,并將Amazon SageMaker Canvas構建的模型準確度與python編程語言得出的結果進行對比分析。

1. 分類問題

1)數據集

我們一般接觸到的分類問題大多屬于二分類問題,非此即彼。乳腺癌分類問題就是機器學習中一個經典的二分類問題,建立乳腺癌風險評估模型,預測乳腺癌發生概率,對乳腺癌的防治具有重要意義。

本文使用的數據據集來自美國威斯康星州公開的乳腺癌診斷數據集,醫療人員采集了患者乳腺腫塊經過細針穿刺后的數字化圖像,并從這些數字圖像中提取了32個特征,用這些特征描述圖像中的細胞核呈現。

數據集共569行,每行數據具有32個特征,第一行是id,第行為diagnosis診斷類型(良性/惡性),第3-32個特征其實只包含了十個屬性,只是每個屬性都從3個維度:平均、標準差、最大值去分析,所以總共有30個特征。

表2 乳腺癌數據集說明

2)對比分析

使用Amazon SageMaker Canvas實現乳腺癌分類的步驟如下:

① 登錄Amazon SageMaker Canvas。

② 數據準備:導入本地數據到Amazon SageMaker Canvas。

③ 構建模型,選擇數據集中的某一列作為讓模型去預測的目標列,此時SageMaker Canvas會根據該列的值,自動識別該問題是分類問題還是預測問題。在我導入乳腺癌數據集,選擇了“diagnosis”列作為目標列后,Amazon SageMaker Canvas判斷其為二分類問題。的確,該列只有兩種值:B表示乳腺癌良性,M表示乳腺癌惡性。

除此之外,SageMaker Canvas會自動對上傳的數據集進行預處理,例如,使用數據集中毗鄰的值來推斷缺失值,且能提供數據集中每列的數據是如何分布的,這極大省去了在使用python進行分類時的特征預處理以及特征選擇的工作。

圖3 使用python進行特征預處理

接著點擊構建或預覽模型,SageMaker Canvas會從自身封裝的眾多模型中為你推薦最合適的一個,并將特征按照重要程度排名,你可據此看出哪些特征對機器學習模型影響最大,去掉不重要的特征,點擊更新模型,待到模型準確率無明顯變化后便可不再調整。

圖4 特征重要程度排名

講到這里,大家肯定想印證一下,用python編程語言篩選出的特征和Amazon SageMaker Canvas給出的特征排名,二者之間有沒有偏差,或者說有多少是吻合的?下面就為大家揭秘。

如下圖所示,左側是Amazon SageMaker Canvas得出的排名,右側是python得出的特征相關性熱力圖,據此熱力圖選取相關性特征值維度值較大的特征。

表3 SageMaker Canvas Vs. Python

能夠識別患者是否罹患乳腺癌的分類器訓練完了,那么如何評判這個分類器的優劣呢?

傳統的評估分類器性能的方法是使用混淆矩陣來描述數據集的真實標簽和模型預測標簽之間的差異。此外,基于混淆矩陣,還可以計算出各種指標來比較分類器的性能,如F1-Score、準確率(Accuracy)、精確率(Precision)、召回率(Recall)、AUC值。

如下表所示,針對以上指標,對比二者的結果。通過比較,使用Amazon SageMaker Canvas得出的模型評估值,和用Python中linear_SVM算法得到的結果幾乎吻合,近似一致。

只是AUC值一列,似乎存在一些問題,Amazon SageMaker Canvas得出的為0.991%,python得出的是0.974,數值上是吻合的,但在度量上差了兩位小數點兒,這一點還有待進一步探討。

表4 Amazon SageMaker Canvas VS. Python

圖5 SageMaker Canvas的混淆矩陣和幾大指標

3)小結

分類算法的應用范圍和涉及的場景非常多,涉及各行各業,我們要解決的問題大都可以抽象為分類問題.

就拿信用卡的生命周期來講,在營銷期,利用分類算法對積累的客戶的數據進行預測,找到潛在的推廣客戶,滿足個性化營銷。

到審核階段,需要對客戶進行資質評估,無通過分類算法預測違約的概率,從而達到信用評級的目的。

到了穩定期,隨著客戶的賬齡不斷增長,客戶的資質不斷發生變化,需要定時定點對客戶進行風險的研究,及時發現風險客戶并進行管理。

最后,到了衰退期,會涉及到客戶流失的問題,需要用分類算法預測客戶流失的可能性有多高。

2. 預測問題

1)數據集

波士頓房價預測是經典的數據分析/機器學習入門項目,我們都知道,房價一般會與房間面積的大小、房子所在的城市、房子的空間布局等因素有關。而房價預測的任務就是給定與房價相關因素的數據,通過這些數據預測出房子的價格。

波士頓房價數據集:波士頓房價數據集來自卡內基梅隆大學StatLib庫,涵蓋了麻省波士頓的506個不同郊區的房屋數據,404條訓練數據集,102條測試數據集 每條數據14個字段,包含13個屬性和1個房價的平均值。下表是對波士頓房價數據集的特征描述:

表5 波士頓房價預測數據集

2)對比分析

波士頓房價數據集中共計13個特征,每個特征都會或多或少的提升或者抑制房價?,F將SageMaker Canvas預測出的特征重要程度排名與Python機器學習算法得出的進行對比,發現前7個特征中,有5個特征是重疊的,這證明SageMaker Canvas的模型預測性是值得信賴的。

比如,抑制房價最明顯的是特征NOX,它表示一氧化氮的濃度,基于常識可知,一氧化氮濃度越高,說明住房所在地的環境污染越嚴重,房價也就越便宜。對房價提升最明顯的特征是 RM,對應數據集可知,RM指的是每處住房的平均房間數量,這也是很容易理解,房間越多,房屋總面積就越大,面積越大,總房價就高。

表6 Canvas得出的特征重要性排名 VS. Python得出的

SageMaker Canvas除了能夠對數據集中影響預測結果的特征進行重要性排名,還能清晰地展示出每一個特征和預測結果之間的關系(是正相關的還是負相關的),例如,LSTAT這一特征表示“該地區中有多少房東屬于低收入人群”,如下圖所示,該地區低收入人群越多,房價越低。

圖7 各個屬性對模型預測的影響力排名

鑒于可視化能給人們帶來最直觀的認知,SageMaker Canvas中提供了可視化方法,來展示回歸模型預測的效果。

如下圖,可以看到針對波士頓房價數據集,預測房價和實際房價之間的對比圖。針對預測類問題,SageMaker Canvas提供了均方根誤差(RMSE),如下圖所示,線條周圍紫色區域的寬度代表了RMSE的范圍,房價預測的值通常會落在這個范圍之內。

3)小結

本次,在使用SageMaker Canvas預測房價的過程中,我們只需要給定輸入數據集,SageMaker Canvas就可以從中推演出指定目標變量的可能結果。其他預測問題,也能在SageMaker Canvas上實現。

四、總結

高昂的硬件價格、復雜軟件配置一直是阻礙初學者入門 AI 的絆腳石,低代碼機器學習開發平臺的問世與推廣可謂是“碼盲人群”的一道曙光。通過低代碼功能,使用支持比 Python 編碼更快、更容易的模型操作的新的機器學習算法,變得讓人期待??梢姡谖磥?,即使是完全不具備機器學習知識的業務人員,也可以運用機器學習模型高效解決業務上的實際問題。

 

本文由 @麥地與詩人 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自unsplash,基于CCO協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 低代碼市場,早在幾年前,亞馬遜、微軟、阿里、騰訊等國內外巨頭公司就已紛紛入局。

    來自山東 回復
  2. 看標題還以為小白會禿頭,但是開頭“對沒有機器學習知識的人友好”成功讓我去了解了哈哈

    來自廣西 回復
    1. 哈哈,可以try一下~

      來自廣東 回復