畫像“標簽”生產實操指南(二)之產出清晰的標簽數據需求

2 評論 7524 瀏覽 59 收藏 8 分鐘

編輯導語:畫像“標簽”對于產品經理來說十分重要。那么如何才能生產出清晰的標簽數據需求,讓研發(fā)明確你的意圖呢?本文作者為我們做出了解答。

上一篇,我們明確了如何進行標簽需求分析,《畫像“標簽”生產實操指南(一):需求分析》,今天我們來看看數據產品經理如何將業(yè)務語言的需求轉化為規(guī)范化標簽數據需求,讓研發(fā)能夠真正”懂你”。

開始之前,我們還是看一下小王的案例:通過上期的方法,小王明確了業(yè)務方最緊迫最重要的20個標簽需求,并仔細填充《標簽需求收集模板》中涉及的關鍵信息,力圖在評審時讓研發(fā)對需求一目了然。

完成表格后,他和研發(fā)同學約了第二天進行需求評審,萬萬沒想到這次評審他又翻車了,評審會上研發(fā)同學毫不留情地對他”開懟”:

  1. 這幾個標簽用到的數據源我沒接觸過,去哪里拿?哪個數據庫哪張表?數據能用嗎?
  2. 行為數據幾個地方都有這個字段,我到底從哪張表去???
  3. 大部分用戶注冊時,根本不會填寫性別信息,這樣的標簽做出來結果都是未知,有什么意義?

研發(fā)提的問題小王沒能對答如流,評審結果以失敗告終。

小王自認為,需求已經非常明確,這些標簽對業(yè)務都是有明確使用場景的,想要的就是這些,描述也非常清晰,為啥還是翻車,心里覺得特委屈。

為了避免遇到和小王一樣場景,本文總結避坑指南流程如下:

畫像“標簽”生產實操指南(二)之產出清晰的標簽數據需求

一、明確數據源及數據口徑

數據產品經理提需求時,必須對需求中涉及的數據了然于心。

口頭描述或僅僅用業(yè)務化的語言描述需求,只會讓研發(fā)在心里給我們打上“不靠譜”的標簽,且在后續(xù)項目過程中很有可能出現以下情況:

對整體項目推進極為不利;增加研發(fā)工作負擔;對于不了解的數據源,研發(fā)需要反復和數據源方溝通確認規(guī)則;對于喜歡專注碼代碼的研發(fā)同學無疑大大增加了工作負擔。

實現結果不是需求方想要的:在數據源對接過程中,大多數研發(fā)可能已經心力交瘁。當遇到復雜問題時,有些研發(fā)同學為了圖省事進行自由發(fā)揮,或者因為信息獲取不全面進行錯誤決策。

所以在此環(huán)節(jié),數據產品經理可以和數據源方的產品、運營、研發(fā)同學重點明確以下信息:

  1. 數據采集入口:如用戶在客戶端某個位置,在何種場景下進行操作,能夠獲取到該數據;
  2. 數據采集方式:如通過埋點獲取,通過爬蟲獲取等;
  3. 數據血緣關系:如是否依賴上游表清洗而來;
  4. 上報機制:如實時上報、離線T+1上報、數據量達到20k上報等;
  5. 數據清洗規(guī)則:如是否進行格式校驗、轉化、排重、填補,若依賴上游表,還需溯源各上游表明確處理邏輯;
  6. 數據存儲位置:通常明確庫表名即可。

二、摸底數據質量

數據的質量直接影響著數據的使用價值,并且直接影響著后續(xù)需求方進行數據分析的結果以及以此做出的決策的質量。

核心需把握以下四要素:

  1. 準確性:上報的數據是否出現異?;虼嬖诓徽_信息,被記錄的數據是否精確;
  2. 完整性:數據是否存在缺失;
  3. 一致性:數據流轉過程中,前后是否一致;
  4. 及時性:按照既定規(guī)則,數據是否還存在延遲;

通常,我們可以先想一些用例,自己寫SQL或者求助數據分析師、研發(fā)同學,導出批量數據,進行初步數據質量探查。

數據導出后,結合對數據源的理解,發(fā)現數據中存在的問題。

不過僅僅發(fā)現問題遠遠不夠,需要謹記我們的目標是實現標簽需求,所以發(fā)現需要主動去思考解決問題的方式并推送問題的解決。

比如數據格式不正確,但為了實現該標簽,是否可通過制定一定的清洗規(guī)則進行處理;再比如關鍵字段值大面積缺失,是否可從其他數據源進行回補,或者發(fā)現該字段在用戶界面是非必填項,則需要推送業(yè)務方進行完整數據采集等。

三、確定標簽規(guī)則

明確數據源、數據口徑并摸底清楚數據質量后,數據產品經理已經建立起對數據的清晰認知,接下來就是制定明確的標簽規(guī)則。一份清晰的規(guī)則說明,需包含以下內容:

  • 標簽類別
  • 標簽層級
  • 標簽名稱
  • 標簽值:標簽值具體名稱,如性別標簽下的”男””女””未知”,收入水平中的”高””中””低”;
  • 數據源:庫表名
  • 統(tǒng)計時間周期:特別是規(guī)則類、統(tǒng)計類標簽,需明確選用的時間范圍,如用戶活躍度標簽,選取近90天的數據進行計算。
  • 標簽具體規(guī)則:選擇數據表中的具體哪個字段,每個字段值與標簽值的對應關系,涉及多個數據源時選取數據源的優(yōu)先級、時間衰減規(guī)則等
  • 異常數據處理邏輯:如數據源字段存在空值轉化為“未知”,字段值出現多個不同格式需進行如何進行格式化等
  • 標簽實時性:實時更新還是離線T+1更新

本文我們重點講述了業(yè)務標簽需求明確后,如何將業(yè)務需求轉變?yōu)闃撕灁祿枨?,用研發(fā)能夠看懂聽懂的語言,準確描述標簽需求,最終順利將項目推進到開發(fā)階段。

#專欄作家#

大鵬,公眾號:一個數據人的自留地。人人都是產品經理專欄作家,《數據產品經理修煉手冊》作者。

本文原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載

題圖來自 Pexels,基于CC0協(xié)議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 學習了

    來自香港 回復
  2. 寫的蠻不錯的,很具備實戰(zhàn)指導性

    來自四川 回復