數據產品經理必須掌握的知識其實只是在大佬眼中的常識
眾所周知數據產品經理是一個集數據分析、產品設計與業務理解于一體的綜合性崗位,其所需掌握的技能、崗位職責以及核心價值對于企業和產品的發展至關重要。小編最近在設計一個數字資產平臺的時候,深有體會,一個數據產品經理是最有可能幫助公司找到技術壁壘的存在,因此,今日小編將會分以下幾點,和大家剖析數據產品經理的Common Sense
一、所需掌握的技能
1. 數據分析技能
- SQL及數據庫知識:熟練掌握SQL語言,能夠高效地進行數據查詢、處理和分析。
- 統計與數據分析工具:熟悉使用Excel、Python(Pandas、NumPy等庫)、R等數據分析工具,能夠進行復雜的數據處理和分析。
- 數據可視化:掌握至少一種數據可視化工具(如Tableau、Power BI等),能夠將復雜的數據轉化為直觀的圖表,幫助業務團隊更好地理解數據。
2. 產品設計與項目管理技能
- 產品設計能力:具備用戶需求分析、產品原型設計、PRD文檔編寫等能力,能夠獨立完成產品的規劃和設計。
- 項目管理能力:能夠協調跨部門資源,推動項目按計劃進行,確保產品按時上線并持續優化。
3. 業務理解與洞察能力
- 行業知識:對所在行業有深入的了解,能夠洞察行業趨勢和市場需求。
- 業務邏輯理解:深入理解企業業務邏輯和流程,能夠將業務需求轉化為產品功能。
4. 技術理解能力
- 大數據與AI技術:了解大數據平臺、機器學習等前沿技術,能夠將其應用于產品設計中以提升產品競爭力。
- 數據治理與安全:了解數據治理的基本概念和方法,確保數據的質量和安全。
二、核心價值
數據產品經理的核心價值主要體現在以下幾個方面:
- 提升決策效率與質量:通過數據分析為業務團隊提供準確、及時的數據支持,幫助團隊做出更加科學、合理的決策。
- 優化產品功能與用戶體驗:基于用戶需求和業務場景進行產品設計與優化,提升產品的易用性和滿意度。
- 推動業務增長與創新:通過數據洞察發現新的業務機會和創新點,推動業務的持續增長和創新發展。
- 促進數據資產的價值最大化:通過數據治理和數據分析等手段提升數據資產的質量和價值,為企業創造更大的商業價值。
三、術語解釋
1. 數據元
數據元是數據的最小單元,它是對特定信息內容的標準化表示。它通常代表一個單一的事實、屬性或特征,如姓名、日期或金額等。數據元具有明確的定義、數據類型、值域和表示方法,它是構成數據集的基本單元。
2. 元數據
元數據是描述關于數據的數據,它提供了關于數據元的相關信息,如數據的來源、格式、位置、名稱、大小等以及如何訪問和處理這些數據。有助于數據的識別、管理和使用。
元數據打通了源數據、數據倉庫、數據應用,記錄了數據從產生到消費的全過程。元數據主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及ETL的任務運行狀態。
元數據按類型劃分:
- 業務元數據:例如;用戶范圍、業務規則、邏輯規則等等;
- 技術元數據:例如:在數據庫中的表名、字段名、字段類型、字段長度等等;
- 管理/操作元數據:例如:管理元數據的加工、存檔、結構、存取、版本控制權等等的問題;
3. 主數據
企業中多個信息系統共享和使用的數據,主數據不僅僅是清洗過的標準數據,它還包括了數據的整合、豐富和維護等一系列管理活動,以確保數據的質量和應用的一致性。
4. 數據源
數據源則是指數據的產生地或存儲地,它可以是數據庫、文件、API接口等。數據源包含了一系列的數據元素,它們是數據流的起點,可以被提取、轉換并用于不同的應用場景。數據元:是實際的數據內容,是構成數據的基本單位,關注于數據的定義和標準化;
- 元數據:是對數據元的描述和說明。數據元與元數據兩者相輔相成,共同構成了完整的數據管理體系;
- 主數據:是企業核心業務實體的集合,關注于跨系統的數據一致性和準確性;
- 數據源:則是這些數據元的原始出處。
5. 數據質量規則體系
數據質量管理(Data Quality Management),是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
完整性、唯一性、有效性(合規性)、一致性、準確性、及時性,六個維度進行單列、跨列、跨行和跨表的分析
- 準確性: 描述數據是否與其對應的客觀實體的特征相一致。
- 完整性: 描述數據是否存在缺失記錄或缺失字段。
- 一致性: 描述同一實體的同一屬性的值在不同的系統是否一致。
- 有效性: 描述數據是否滿足用戶定義的條件或在一定的域值范圍內。
- 唯一性: 描述數據是否存在重復記錄。
- 及時性: 描述數據的產生和供應是否及時。
- 穩定性: 描述數據的波動是否是穩定的,是否在其有效范圍內。
6. 數據安全管理
旨在確保數據在整個生命周期內的保密性、完整性和可用性,同時也包括確保數據的合法合規使用。
7. ETL數據
指通過提取(Extract)、轉換(Transform)和加載(Load)的流程處理的數據
8. 數據湖
是一個大規模的存儲系統,用于存儲原始數據和未經處理的數據。
數據湖中的數據可能是半結構化或非結構化的,例如文本文件、電子郵件、社交媒體帖子等。數據湖的目的是保留數據的原始狀態,直到需要時再進行處理和分析。
9. 數據倉庫
數據倉庫側重于結構化數據的集成和分析。是一個面向主題、集成的、相對穩定的環境,用于支持決策制定過程。它通常包含經過清理和集成的歷史數據,這些數據不再被修改,而是用于查詢和分析。數據倉庫的數據是結構化的,適合進行復雜的查詢和報告生成,以支持商業智能(BI)和在線分析處理(OLAP)應用。
10. 數據集市
可以被視為數據倉庫的子集,它服務于特定的業務領域或部門。數據集市包含特定主題的數據,通常更加專注于滿足某個特定業務需求的數據分析。
11. 數據標簽
用戶對資產進行分類和描述,以便于檢索??梢詮臉I務角度定義標簽,并與技術資產關聯數據指標
12. Broker
通常指的是消息代理服務器
13. ODS
數據倉庫中的ODS(Operational Data Store),ODS是指操作型數據存儲,它是一種用于整合和管理多個數據源的數據存儲方式。它的主要作用是提供統一的數據平臺,讓業務用戶能夠在同一個平臺上訪問、管理和分析多個數據源的數據。ODS中的數據則是按照業務實時的需要進行組織,通常包括原始數據和運算數據兩種。
1)數據倉庫與ODS的區別
(1)數據結構不同
數據倉庫中的數據是按照一定的主題進行組織的,通常采用三層架構:底層是數據明細層,中層是聚合層,頂層是匯總層。而ODS中的數據則是按照業務實時的需要進行組織,通常包括原始數據和運算數據兩種。
(2)數據處理方式不同
數據倉庫中的數據處理以分析為主,注重數據的全面性和綜合性,數據多為靜態,數據處理操作較少。而ODS中的數據處理以操作為主,注重數據的準確性和實時性,數據多為動態,數據處理操作頻繁。
(3)數據來源不同
數據倉庫中的數據通常來自于多個異構數據源,需要進行數據清洗、整合等操作才能進入數據倉庫。而ODS中的數據則來自于生產系統的數據庫,可以直接進行操作。
2)數據質量關注點
- 一致性:值數內容在系統內,系統間是否保持一致。如指標是否同名同義,存儲,精確度,加工邏輯等是否一致。
- 完整性:指數據的完整,完備性與及時性,是否存在數據遺漏,缺失及補充等。每日提供的數據應該是完整的,無論在量上還是在特定的數據上,高質量的數據是通過完整的數據統計出來的。
- 可靠性:指數據的穩定性和準確性等,數據提供過程中,數據產生依賴于系統間的性能,生產數據和加工數據的過程,都會影響數據的可靠性。
- 準確性:數據域源頭的精確性,以及數據處理過程中是否存在算法和數據沖突等。數據的準確性可能存在于個別記錄,也可能存在于整個數據集,只有準確更高的數據才能提供高效、高優的決策。
- 可理解性:數據的可讀性和可分析性,是否滿足業務需求,以及數據間是否存在相互關系,用戶拿到數據是可理解,可用,可決策的。
- 有效性:指數據是否有效可用,以及數據數據的訪問域安全性等。數據安全是數據質量的一項重點管理方面,數據安全對于數據人來說是一條不可觸摸的紅線。
14. oracle表分區
1)分區表的概念:
當表中的數據量不斷增大,查詢數據的速度就會變慢,應用程序的性能就會下降,這時就應該考慮對表進行分區。表進行分區后,邏輯上表仍然是一張完整的表,只是將表中的數據在物理上存放到多個表空間(物理文件上),這樣查詢數據時,不至于每次都掃描整張表。
2)分區表的優點:
- 改善查詢性能:對分區對象的查詢可以僅搜索自己關心的分區,提高檢索速度。
- 增強可用性:如果表的某個分區出現故障,表在其他分區的數據仍然可用;
- 維護方便:如果表的某個分區出現故障,需要修復數據,只修復該分區即可;
- 均衡I/O:可以把不同的分區映射到磁盤以平衡I/O,改善整個系統性能。
3)分區表的種類:
(1)范圍分區
概念: 范圍分區將數據基于范圍映射到每一個分區,這個范圍是你在創建分區時指定的分區鍵決定的。這種分區方式是最為常用的,并且分區鍵經常采用日期。
(2)Hash分區
概念:
對于那些無法有效劃分范圍的表,可以使用hash分區,這樣對于提高性能還是會有一定的幫助。hash分區會將表中的數據平均分配到你指定的幾個分區中,列所在分區是依據分區列的hash值自動分配,因此你并不能控制也不知道哪條記錄會被放到哪個分區中,hash分區也可以支持多個依賴列。
(3)List分區
List分區也需要指定列的值,其分區值必須明確指定,該分區列只能有一個,不能像range或者hash分區那樣同時指定多個列做為分區依賴列,但它的單個分區對應值可以是多個。
(4)組合分區
批處理和流處理區別:批處理和流處理的主要區別在于數據處理的時間、存儲方式、應用領域以及數據處理方式。
- 處理時間:批處理通常在固定時間間隔內一次性處理大量數據,處理過程可能涉及讀取數據、數據轉換和寫入結果等階段,而流處理是連續不斷地處理數據,每當有新的數據產生時,系統會立即對其進行處理并將結果實時輸出。
- 存儲方式:批處理通常涉及將數據存儲在臨時數據庫或文件系統中,以便進行集中處理,而流處理需要在內存中存儲一部分數據,以便進行實時計算和分析。
- 應用領域:批處理適用于需要處理大量數據的場景,如大數據分析、數據挖掘、生成報表等。流處理則適用于需要實時處理數據并快速生成結果的場景,如實時監控、金融風險控制、用戶行為分析等。
- 數據處理方式:批處理的數據被視為一批靜態的記錄集合,處理過程通常是一次性的,處理完整個數據集后,任務結束。流處理中,數據被視為不斷流動的數據流,系統持續不斷地處理這些數據流。
綜上所述,批處理和流處理各有其適用的場景和優勢。批處理適合于不需要即時響應的場景,如日志分析、大規模數據集的ETL操作、復雜的數據轉換和計算等,而流處理則適合于需要實時或近實時響應的場景,如實時監控、實時分析、在線推薦系統、實時欺詐檢測等。
流處理系統對低延遲的要求和批處理系統對高吞吐量的要求
四、數據采集
1. 數據質量核查與異常處理
- 數據質量核查對采集的數據總量進行比對, 生成數據對比報告,并對采集數據內容進行質量核 查,保證獲取數據與原始數據數量、數據內容一致。
- 若經數據核查存在數據差異,啟動異常處理流程,將發現的異常數據反饋給數據提供方,待其 將異常數據核對修改后重新進行采集。
2. 數據類型
按結構化特征、業務歸屬和產生來源等維度對政務大數據進行分類,具體如下:
1)結構化數據
對于結構化數據,按業務歸屬分為:
- 主數據, 用來描述核心業務實體的數據, 是核心業務對象、交易業務的執行主體, 為應用 軟件提供一個統一、一致的參考數據映像,如人口、法人、車輛、房屋、事項等數據;
- 基礎數據,描述核心業務對象、交易業務的基礎信息數據,通常是靜態的(如事項類型、 證件類型), 一般在業務事件發生之前就已經預先定義,其變化很少或者變化很慢,可選值 數量有限的,如行政區劃、組織劃分、經濟分類等數據;
- 事務數據, 在業務和流程中產生并記錄業務事件的數據, 具有較強時效性的一次性業務事 件, 通常在事件結束后不再更新,事務數據會調用主數據和基礎數據,如執法監管、行政審 批等數據;
- 觀測數據,對人、事、 物、環境等觀測對象,通過觀測工具獲取的數據, 一般數據量較 大且是過程性的,主要用作監控分析,如氣象觀測、水文監測、環境監測等數據;
- 規則數據, 結構化描述業務規則變量的數據, 一般為決策表、關聯關系表等形式, 是實現 業務規則的核心,如事項審批規則、執法規則等數據;
- 統計數據, 對數據按照統計學方法進行處理加工后, 用作業務決策依據的次級數據, 一般 用于支持報告和報表的生成,如GDP指標、財政收入指標等數據。
2)半結構化數據
對于半結構化數據,按產生來源分為:
- XML文檔;
- JSON文檔;
- 日志文件;
- HTML文檔;
- Email。
3)非結構化數據
對于非結構化數據,按產生來源分為:
- 文本數據;
- 多媒體數據;
- 空間數據。
注: 針對事務數據, 按產生頻率分類, 分為實時數據和非實時數據; 針對文本數據, 按業務歸屬分類, 分為法律數 據、規章數據、辦公數據、事務數據; 針對多媒體數據, 按產生來源分類, 分為音頻數據、視頻數據和圖像數 據;針對空間數據,按產生來源分類,分為矢量數據、柵格數據和實景三維數據。
3. 數據采集方式
根據需要采集數據的范圍、類型以及數據的質量和安全要求, 綜合考慮數據源網絡環境、數據采集 工具技術路線選型、現有數據采集通道建設情況,從而確定數據采集方式。
1)終端采集:通過硬件終端、軟件終端、網絡爬蟲等方式對物聯網傳感器數據、互聯網數據等 進行數據采集;
2)人工采集:通過在線填報、離線拷貝和導入等人工轉化方式進行數據采集和導入,如問卷調查、實地調研、資料分析等產生的數據,以及通過移動介質拷貝的數據,包括常用的文件交 換類型和數據庫導出文件;
3)軟件系統數據匯聚:
- 數據庫表交換: 以數據庫表作為數據資源進行匯聚, 通過在數據交換兩端部署數據交換組件及交換庫;源端數據發生更新后實時通過交換組件推送至源端交換庫,由兩端交換組件協調雙方交換庫的同步,目標端通過交換組件從交換庫提取數據。
- 數據接口: 以數據接口服務作為數據資源進行匯集,常用的接口方式有WebService、 Restful,并以XML、JSON等格式進行服務。數據資源提供方調取業務應用系統或數據庫中的 數據,并封裝提供數據接口服務,數據需求方通過數據接口調用獲取數據,并把數據采集至 前置庫中,目標端通過交換組件從前置庫提取數據;
- 文件交換:以電子文件作為數據資源進行匯聚,常用的電子文件類型有wps、xml、txt、 doc、docx、html、csv、xls、xlsx等。通過前置機的共享目錄或FTP服務,實現共享文件數據組裝、數據傳輸、數據解析和數據使用,達到數據交換的目的;
- 消息隊列: 以消息發布-訂閱方式進行數據匯聚, 可實現消息的異步發送接收, 發布訂閱, 使得兩端的應用解耦(減少或解除應用程序之間的耦合度)和網絡傳輸斷點續傳,支持分布 式消息隊列。
4. 實施數據采集
1)根據數據采集探查的結果, 針對不同的數據源類型, 推薦采用以下數據采集方案實施數據采集:
- 針對結構單一、數據量相對較小的結構化數據,可通過數據庫交換、文件交換、數據接口、 消息隊列等方式進行數據采集;
- 針對傳感器、智能手機、網絡等渠道產生的類型豐富、數據量較大的數據,可通過分布式數 據接口、分布式流數據收集、網絡爬蟲等方式進行數據采集;
- 針對由麥克風、攝像頭等設備產生的海量音視頻數據,可通過硬件終端的語音圖像識別、編解碼等技術轉化后進行數據采集;
- 針對問卷調查、實地調研、資料分析等產生的數據,可通過在線填報、離線導人等人工轉化 方式進行數據采集。
2)不應在待采集數據的源系統業務繁忙時進行,避免讀取動作影響源系統正常運行。
3)宜使用源系統的備份庫作為采集對象,使用備份庫時應保證數據一致性和可用性。
4)對于數據量較大、單批量采集可能會造成系統故障的,應支持分批或增量讀取, 并采用分布式 方式對數據源進行讀取。
5. 原始數據入庫
- 將不進行處理的原始數據采集后存放在政務大數據的原始庫中。
- 原始數據存儲應按照規定, 根據源數據選擇合適的數據存儲方式對數據進行存儲。
6. 數據規整
數據規整通過數據清洗、數據轉換、數據分析等操作, 對采集的原始數據進行標準化規整處理, 確保數據的完整性、準確性和時效性。
數據規整過程管理應包括但不限于:
- 數據分析:應對數據源進行分析,及時發現數據源存在的質量問題;
- 定義清洗規則:包括空值的檢查和處理、非法值的檢測和處理、不一致數據的檢測和處理、 相似重復記錄的檢測和處理等;
- 執行數據清洗規則: 依據定義的清洗規則,補足殘缺/空值、糾正不一致、完成數據拆分、數據合并或去重、數據脫敏、數據除噪等;
- 清洗結果驗證:數據清洗方應對定義的清洗方法的正確性和效率進行驗證與評估,對不滿足 清洗要求的清洗方法進行調整和改進。數據清洗過程宜多次迭代并進行分析、設計和驗證。
應對數據的標準代碼、格式、類型等內容,按照政務大數據轉換規則進行轉換。
應通過數據聚合、數據歸類、數據關聯、數據血緣等方法,分析采集的數據,形成上下文完整 有效的數據。
7. 規整數據入庫
對原始庫中的數據進行規整,使其滿足政務數據使用的標準化質量要求,規整后的數據存放在 政務大數據規整庫中。
規整庫數據存儲應根據源數據選擇合適的數據存儲方式,存儲應符合規定。 處理后的數據存儲應滿足海量、安全、高性能、高可靠、易管理。
8. 數據更新
原始數據發生更新時,應依照上述要求的數據采集流程中的步驟對原始庫和規整庫中的需更新數據進行更新采集, 并根據數據更新快慢和實時性要求制定不同的采集策略。原始庫中更新后的歷史數 據存放在政務大數據中的歷史庫中。
1)應支持全量更新和增量更新的數據更新方法:
- 對存在更新標識的數據應支持增量更新;
- 對不存在更新標識的數據應支持全量更新。
2)應支持定時更新、事件觸發更新和手動更新的數據更新策略:
- 對產生呈現周期性規律的數據應支持定時更新策略;
- 對產生由特定事件觸發的數據應支持事件觸發更新策略;
- 對產生無特定規律的數據應支持手動更新策略。
3)支持實時、定時的數據更新頻率,并根據數據變化情況,進行及時和持續更新:
- 實時產生且實時性要求高的數據應進行實時更新;
- 實時產生且實時性要求低的數據宜采用定時更新
9. 數據范圍
政務大數據采集范圍包括但不限于基礎數據、專題數據、業務數據和其他數據四大類:
- 基礎數據,如人口、法人單位、自然資源、地理空間、宏觀經濟、電子證照等數據;
- 專題數據,如房屋、城市部件、網格等與數字政府、數字社會、數字經濟、數字文化、數字 生態相關的數據;
- 業務數據,如涉及公安、衛生健康、教育、民政、交通、水利、人力資源和社會保障、市場 監管、應急管理、司法、住房和城鄉建設、交通運輸、數據資源管理等眾多領域的業務數據;
- 其他數據,如與政務大數據相關的互聯網、工業、商業等數據。
五、常見的數據質量稽核規則示例
- 數據完整性:確保數據的所有字段都有值,且符合業務規定
- 數據準確性:確保數據的值與實際情況一致,無錯誤或誤差
- 數據一致性:確保不同源的數據在各個系統中相互一致
- 數據及時性:確保數據及時采集、更新和傳輸,以滿足業務需求
- 數據可靠性:確保數據的來源可靠,數據的存儲和傳輸過程安全可靠
- 數據有效性:確保數據滿足使用者的需求和標準,不包含無效或重復數據
- 數據唯一性:確保數據的主鍵或索引字段唯一,避免重復錄入和重復使用
OK,今日就講到這里,這么多內容相信都夠各位小伙伴消化一輪了,收藏起來慢慢看,總的來說,小編認為,互聯網產品經理在AI的迅速崛起的背景下,數據產品經理是除AI產品經理外能夠存活且有一定價值的崗位。
本文由@樂少有話說 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!