推薦產品經理必知必會①:數據處理

0 評論 1252 瀏覽 3 收藏 5 分鐘

策略產品經理如何對數據進行處理?這篇文章里,作者做了方法介紹以及相應的內容梳理,一起來看看吧。

在正式介紹推薦策略之前,我們需要了解推薦策略產品經理如何對數據進行處理,一切策略都離不開數據。重點在于:

  1. 理清公司已有數據;
  2. 了解公司有哪些數據表;
  3. 判斷數據表內的數據質量如何。

一、常見的底層數據表

電商領域常見的7張離線Hive表:

切片表:按照時間分區,將每天的新數據放在一個獨立的時間分區里,例如:7月1日與7月2日的不同。

增量表:匯總所有數據,新增數據直接在原始表內添加,不增加新分區,訂單表與賣點數據均是增量表,因為其需要選擇某個時段or歷史所有數據,直接截取即可,如果存在不同分區,截取就會很麻煩。

二、數據表加工

ETL(extract-transform-load,抽取——轉換——加載):從底層數據表抽取數據,然后再清洗加工,最終得到上層表,這一過程不斷進行。

三、數據歸一化與標準化

不同類型的數據需要轉化為同一量綱才能進行比較,需要歸一化/標準化,本質上是一種線性變換(縮放+平移)。(歸一化≠標準化)

1. 歸一化

Min-Max(最小最大值)歸一化(最常用的方式):

x* = ( x ? min ) / ( max ? min )

歸一化后的數值處于[0,1]之間,實際數據中存在無解釋度的極大(小)值,故需要挑選合適的最大(?。┲?。

適用場景:數據分布集中。

均值歸一化:

x* = ( x ? mean ) / ( max ? min )

歸一化后的數值處于[-1,1]之間

適用場景:數據存在極值,但在業務視角這一極值是合理的。

Log對數函數歸一化:

歸一化后的數值處于[0,1]之間,非線性的歸一化方式,縮小數據間的差距,使之分布均衡。

適用場景:樣本數據跨度大,頭部極值出現頻率相對高。

2. 標準化

歸一化/標準化可以消除不同數據之間量綱差異巨大帶來的無可比擬性:

  • 若異常值和噪聲較多,使用標準化數據處理方式可以消除不同特征差異權重的影響,使之權重趨同(歸一化保留了潛在權重關系)。
  • KNN和K-Means等涉及距離的業務中,若各特征變量對最終距離影響一致,需要用標準化處理,其余應用根據業務需求進行。

以上介紹的數據處理方法在策略產品工作中會經常用到,一定要熟悉哦!

本文由 @策略產品經理規劃 原創發布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!