這篇文章把數據講透了(一):數據來源

0 評論 11821 瀏覽 72 收藏 9 分鐘

編輯導讀:隨著“數智化”時代的到來,我們生活中的方方面面都離不開數據,而你真的了解數據嗎?本文將為你重新解讀數據的概念和價值,以及數據的價值是如何在“數智化”時代下一步一步得到運用與升華的。因內容頗多,我將分幾期為大家進行講解。

一、前言

我們日常生活中經常會聽到這樣的問題:你有數據支撐嗎?你的數據來源是哪兒?數據噪聲大嗎?

那么這里的“數據”究竟是怎樣的存在?

百度百科對數據定義很簡單:數據(data)是事實或觀察的結果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經加工的原始素材。

而仔細想想,我們日常中所指的數據真的是data嗎?其實,我們更多指的是已經形成體系、有邏輯結構和實用性的“數據知識”。

所以,我們也不能把數據當作一個簡單的概念,但其實“數據”里面還有很多學問。

下面先給大家引出四個“數據”相關的名詞概念,后面我會分別闡述它們“價值變現”的方法論。

你真的了解data、information、kownledge、insight是什么嗎?

  • data(菜市場買來的菜):簡單的事實,未處理的,無組織的,原始的。
  • information(折菜、洗菜):經過結構化組織、處理的數據,要根據“情景和語境”使其具有相關性和實用性。
  • kownledge(下鍋炒菜):是通過學習和經驗聯系在一起的信息地圖,具有預測和決策和概括的能力。
  • insight(已經到能教別人做菜的程度):準確而深刻地理解復雜問題或情況的能力(是可以借助工具實現的)。

今天,小陳就帶大家看看數據的來源及其具體類型,畢竟知己知彼,方能百戰不殆,有了今天的鋪墊我們才能在后面幾期的學習中,能容易上手~

二、數據來源(菜市場)

如果說,data是我們烹飪所需的原材料,那么確定數據來源就好比我們出去買菜之前要先確定去哪家菜市場買菜一樣;而且“菜市場”也是術業有專攻的!買海鮮去海鮮市場、買家禽要去禽類市場…數據也是一個道理,要通過你所需的領域,具體篩選數據來源,畢竟保證數據質量是烹飪佳肴的第一步~

就像前面所述,數據是一個龐大的概念,我們想要利用好,首先要知道數據的類型,根據類型再去判斷來源和收集數據。

1. 按照結構化程度區分數據來源

1)非結構化數據

非結構化數據,是數據的最簡形式;我們身邊時時刻刻都有非結構化數據的身影且幾乎唾手可得,文字、圖片、聲音或視頻都屬于非結構化數據,這類數據通常存儲在文件存儲庫中(小白們,可以把它看作是計算機硬盤驅動器上一個組織良好的目錄)。

但,從這種形狀的數據中提取價值通常是最困難的;因為我們首先需要從描述或抽象數據中提取結構化特性(例如,要使用文本,我們可能需要提取主題以及文本對主題的正面或負面評價,而一千個讀者就會有一千個哈姆雷特,這類信息是極具主觀色彩的)。

目前,非常流行的文本挖掘技術,它的數據來源就是我們此處所說的非結構化數據。

2)結構化數據

結構化數據,顧名思義,是定義良好的表格數據(行和列),這意味著我們知道有哪些列以及它們包含什么類型的數據;這些數據通常存儲在數據庫中,在數據庫中,我們可以使用SQL語言進行結構化數據的篩選,并輕松創建數據集用于我們的數據科學解決方案。

3)半結構化數據

半結構化數據,介于非結構化和結構化數據之間,它雖然定義了一致的格式,但是結構不是很嚴格,比如數據的一部分可能是不完整的或者是不同的類型;半結構化數據通常存儲為文件,但是,某些類型的半結構化數據(如JSON或XML)可以存儲在面向文檔的數據庫中。

2. 按照數據私密性區分數據來源

1)組織內的數據源(封閉數據源)

查找數據的第一個地方是組織內部,大多數企業目前都有ERP、CRM、工作流管理等系統在運行,這類系統通常使用數據庫以結構化的方式存儲數據;這些數據庫包含大量的數據,您可以很容易地從中提取價值;例如,通過工作流管理系統,您可以輕松地了解業務流程中的瓶頸,或者通過使用來自ERP系統的數據,您可以進行銷售預測。

2)公開的數據源(開源數據源)

除了對內非公開數據以外,許多組織接收和發送大量的文件、圖片、聲音或視頻,這些在公網上傳播留存的數據則為公開的數據源;例如,你可以想象,一家保險公司收到了很多可能附有圖片的索賠(紙質的或PDF格式的),這些文件通常在處理前手動轉換為更結構化的格式;但是,在這種轉換中會丟失一些信息,當嘗試改進我們的數據科學解決方案時,我們可以使用這些文件來提取額外的數據,比如情景概述。

后續,我們可以使用這些額外的數據改進欺詐性索賠檢測,這就是公開數據源的價值。

除此之外,其實業界還有很多數據來源分類法,例如是否為實時數據、一手數據or二手數據來源….

三、結語與下期預告

本期,小陳通過一個“買菜”的例子,讓大家對“數據”這個龐大的體系有了一個洞察,并通過“菜市場”這樣一個比喻,讓大家對數據來源有了一個整體的認識。

下期,小陳講在數據來源的基礎上,為大家講解如何利用常用工具進行數據清洗和采集!

 

本文由 @小陳同學ing. 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!