什么是“數據”?

0 評論 2003 瀏覽 4 收藏 9 分鐘

我們總是說產品搖動數據分析,但就“數據”這個詞匯而言,有多少人能清晰地弄明白?這篇文章,作者就給我們科普一下,數據的完整定義,到底是什么。

我們為什么要講數據?

《大數據時代》中提到:雖然數據還沒有被列入企業的資產負債表,但這只是一個時間問題。

數據的價值不言而喻。

我們要如何認識數據?

從基礎開始,懂來源、懂記錄,抽絲剝繭,將虛無縹緲具體化。從身邊的數據作為切入點,進行歸納總結。

那么,什么是數據?

表現形態的角度來說:數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。

它是可識別的、抽象的符號。它不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,也是客觀事物的屬性、數量、位置及其相互關系的抽象表示。

生產要素的角度來說:數據已成為數字經濟時代的新型生產要素。

我們稱現在為“大數據時代”。

數據的種類有哪些?

不同的劃分角度會有不同的類型。比較常用的是:

  • 定時數據:一般是時間相關的內容,如年、月、日等。
  • 定位數據:一般是坐標、地址描述,如經緯度,省市等。
  • 定性數據:指事物的屬性。定性數據分為兩種:一種是無遞增遞減關系的,如渠道號、手機系統等;另一種是有遞增遞減關系的:優等生、中等生、差生等。
  • 定量數據:衡量事物量級的度量值,一般用來比較大小,如年齡28歲,身高182等。

舉個栗子:

某酒店前臺倩倩2024年6月27日14:00在某酒店大廳,通過發票系統開具了3張豆豆公司主體的發票,涉及開票金額2000元。

那么,上述案例中

  • 定時數據是:2024年6月27日14:00;
  • 定位數據是:某酒店大廳;
  • 定性數據是:發票系統、豆豆公司主體;
  • 定量數據是:3張、2000元。

我們的世界充盈著無窮無盡的數據,不同的數據于不同的對象而言有不同的意義,有些是有效的,有些可能是無效的。

因此,數據是有“質量”的。

那么,什么是“質量好”的數據呢?

“質量好”的數據是可用的,能夠通過一定的加工處理產生一定的價值。

它們具有準確性、真實性、完整性、唯一性、一致性、關聯性。

準確性:也叫可靠性,是用于分析和識別哪些是不準確的或無效的數據,不可靠的數據可能會導致嚴重的問題,會造成有缺陷和糟糕的決策。

場景一:數據采集是否重復或遺漏。

場景二:字段是否拋送正確,比如手機號列中是否都是手機號。

真實性:數據必須真實準確的反映客觀的實體存在或真實的業務,真實可靠的原始統計數據是統計工作的靈魂,是管理工作的基礎,是經營者進行正確經營決策必不可少的依據。

場景一:原始數據是否反應真實客觀事實。例如是否包含測試和自充數據,是否包含機器人數據等。

場景二:統計是否真實。為了達到某種目的導致的數據統計造假。典型案例:人有多大膽,地有多大產。

完整性:數據中想要分析的角度是否齊全,主要是事件或者維度。

場景一:事件是否完整。例如支付服務測試環境產生的真實支付訂單信息是否傳給數據中心。

場景二:字段是否完整。例如,銀行流水需要知道是哪個銀行,是否有此標識。

唯一性:用于識別和衡量重復的、冗余的數據,如果重復的數據統計出來的結果一致還好,如果不一致,就會陷入無窮無盡的核對數據中。

場景一:事件是否唯一,一條行為數據不要重復拋送;如用戶支付了1次,但支付表里記錄了2次。

場景二:字段是否唯一。如單個事件中,兩個以上字段都表示同一含義,為了保證數據的易用性,則要廢棄其中之一。

一致性:所有系統的數據不存在信息含義及內容結構的沖突。

場景一:同一個數據,要保證統計口徑的一致性。如收入,有的地方剔除手續費,有的地方未剔除手續費。

場景二:表示相同內容但是字段名不一致,如channel,channelid,market_channel。

關聯性:數據關聯性問題是指存在數據關聯的數據關系缺失或錯誤。

場景一:用戶標識是否一致。如游戲用戶的登錄與充值行為,用戶id是否是一樣的。

場景二:用戶屬性字段是否一致。如用戶啟動行為的渠道號與注冊行為的渠道號以及支付行為的渠道號是否一致。

不同產品會有各種不同類型的數據。如C端產品,有注冊數據、登錄數據、啟動數據、激活數據、充值數據、會員數據等;B端產品有注冊、登錄數據、組織數據、賬套數據等等。

數據種類紛繁復雜,縱橫交錯,在識別和運用數據的過程中,我們一般會遇到哪些困難?

以財務數據為例:

  • 數據孤島:煙囪式信息系統互為孤島,“表哥表姐”多信息系統取數,埋頭整數。
  • 數據口徑不統一:數據統計口徑不統一,同一指標名稱對應著不同的定義與計算方法。
  • 數據清洗難:數據在流動中缺乏質量保障及數據校驗,應用系統使用需要大量清洗工作。
  • 數據離線:數據線下手工采集,難免出現錯誤,又難以識別,返工重做等情況極易發生。
  • 數據質量差:多業務單位收集數據,模板難標準化,返回的數據質量差,匯總工作量大。
  • 主數據不規范:主數據未統一維護,業務與業務,業務與財務各執一套話語體系。

這些困難要如何應對?

通過指標規范建立主數據標準,對接多業務系統獲取源數據并進行數據清洗,將清洗后數據通過映射關系轉換為標準數據,而后依據統計規則對標準數據進行匯總統計。

實現企業內外部數據的治理、采集、加工、應用全流程。

圖源:中興新云

本文由 @簡諳 原創發布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!