數據分析武器庫:模型空間概述

0 評論 2982 瀏覽 24 收藏 16 分鐘

很多學科所謂的模型只是對研究對象的定類測量,另外再加一些經驗性的描述而已。這些模型非常依賴主觀經驗,可重復性和可操縱性都難以對我們的目標產生量級上的效率提升。數據一部分很重要的意義就是讓過去一些無法精確測量的對象變得可精確測量,從而可以引入數學工具解決。這部分是文章的重點,關于數學模型空間。

來,先復習一下,什么是建模:

昨天介紹了模型本質是對現實對象的抽象描述以及附帶的一整套抽象的方法,建模本質上就是建立現實對象和模型的一種映射關系。

今天我們走進模型空間,看看里面最重要的是什么:

  • 我們先來看看我們平時接觸最多的
  • 感覺很高大上的
  • 商業模型是什么?

比如拿我們都知道的swot分析來看:

百科定義:SWOT分析法,即態勢分析法,就是將與研究對象密切相關的各種主要內部優勢、劣勢和外部的機會和威脅等,通過調查列舉出來,并依照矩陣形式排列,然后用系統分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應的結論,而結論通常帶有一定的決策性。

運用這種方法,可以對研究對象所處的情景進行全面、系統、準確的研究,從而根據研究結果制定相應的發展戰略、計劃以及對策等。SWOT分析法常常被用于制定集團發展戰略和分析競爭對手情況,在戰略分析中,它是最常用的方法之一。

這種框架分析工具本質是一個分類方式;首先分類了內部和外部,其次分類了優勢/劣勢,機會和威脅,分類本是一種定類測量,相當于測量了兩個數字:一類叫做0,一類叫做1。

接下來,我們需要了解一些關于測量理論的基礎知識.有助于理解這類模型本質都是測量。

一般可以將數據類型的度量分為四種:定類、定序、定距和定比。

這四種類型是從低到高的遞進關系,高級的類型可以用低級類型的分析方法來分析,而反過來卻不行,理解下面這些類型對于后面學習統計分析方法尤為重要。

(1)定類變量

定類就是將給數據定義一個類別。這種數據類型將所研究的對象分類,也即只能決定研究對象是同類抑或不同類。例如把性別分成男女兩類:把動物分成哺乳類和爬行類等等。

(2)定序變量

定序變量是將同一個類別下的對象分一個次序,即變量的值能把研究對象排列高低或大小,具有>與<的數學特質。它是比定類變量層次更高的變量,因此也具有定類變量的特質,即區分類別(=,≠)。

例如:文化程度可以分為大學、高中、初中、小學、文盲;工廠規??梢苑譃榇?、中、??;年齡可以分為老、中、青。

這些變量的值,既可以區分異同,也可以區別研究對象的高低或大小。 注意!各個定序變量的值之間沒有確切的間隔距離。比如:大學究竟比高中高出多少,大學與高中之間的距離和初中與小學之間的距離是否相等,通常是沒有確切的尺度來測量的。

(3)定距變量

定距變量是區別同一類別下個案中等級次序及其距離的變量,它除了包括定序變量的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數學特質。但是,定距變量沒有一個真正的零點。

攝氏溫度這一定距變量說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度并不是沒有溫度。

注意!定距變量各類別之間的距離,只能加減而不能乘除或倍數的形式來說明它們之間的關系。

(4)定比變量

定比變量是區別同一類別個案中等級次序及其距離的變量,定比變量除了具有定距變量的特性外,還具有一個真正的零點,因而它具有乘與除(×、÷)的數學特質。例如:年齡和收入這兩個變量,固然是定距變量,同時又是定比變量,因為其零點是絕對的,可以作乘除的運算。

如A月收入是60元,而B是30元,我們可以算出前者是后者的兩倍。智力商數這個變量是定距變量,但不是定比變量,因為其0分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;

從這里我們可以看出,很多學科所謂的模型只是對研究對象的定類測量,另外再加一些經驗性的描述而已。這些模型非常依賴主觀經驗,可重復性和可操縱性都難以對我們的目標產生量級上的效率提升。數據一部分很重要的意義就是讓過去一些無法精確測量的對象變得可精確測量,從而可以引入數學工具解決。這部分是我們今天的重點,關于數學模型空間。

接下進入正題,我們來看一下模型空間的具體內容:

需要說明的是對模型空間的分類,是非常有主觀色彩的,我也是斟酌再三之后選取了這樣的角度,以期望不遺漏人類在大多數方面積累的智慧成果。

關于人類先天共識模型——圖像

在生活場景中,我們可以很容易被一幅生動的圖像打動,卻很難(也不愿意)被邏輯說服。

這個模型空間內重要是最新的心理學和認知科學的一些研究成果,所以我們在表達我們的成果的時候,往往還要進行一次映射,將抽象成果 映射為 圖形樣式,方便模型的傳播和理解。

從這個角度來看,關于可視化探索的一些工作也是格外有意義的。

關于有助于認識對象的模型

這個模型空間內部主要是各種我們已知的系統和定義的概念,以生物學和物理學為主要內容。

這部分本質為了方便我們尋找同構問題,例如:我們用生物的進化論類比的去理解人類社會的競爭,我們用漏斗這個圖形,類比商品轉化的過程。

但是需要注意的是尋找同構對象,一方面方便了我們理解對象,也會引導我們忽略對象的一部分特征。比如:我們拿人類社會的發展 類比進化論的時候,忽略了一個重要事實,我們可以基因編輯,從而大大影響自然選擇。

關于價值探討的模型

這個類別里也沉淀了,人類的大量的思辨智慧,從柏拉圖到奧古斯丁,從阿圭那到康德,從笛卡爾到休謨,從加繆到沃格林等等,這些偉大如斯的人終其一生都一直在探索一個永恒的問題——人何以為人,這部分也很值得我們去學習,但不是今天的重點,以后有機會可以給大家做一個簡單介紹。

關于方法論模型

這部分本質上可以概括為對因果關系的探索、分類問題和標記問題,也可以理解為“果”單一的因果問題。

對因果關系的探索存在兩個極端:

  1. 科學:對正確/穩定可復現的極致追求
  2. 工程::以完成目標為核心,重視經驗的積累。

這個時候出現了一種調和方案——數據分析,我們既不能全靠經驗,這樣太依賴個人和運氣.我們也不能什么事情都做個科學實驗,等做完了黃花菜都涼了。

接下來主要給大家介紹數據分析對于探索因果關系的一些方式,這也是我們做數據分析主要進行的工作。

對因果關系的探索分為充分性和必要性兩個方向:

  • 充分性:就是如果A,那么一定B;
  • 必要性:是說我們知道了B的很多特征C,有多大可能性認為A可以推斷出B。

主要通過幾種方式:計算各種系數、畫散點圖、畫散點圖矩陣、做線性回歸、概率估計 (關于相關性和因果性關系又可以寫7篇文章了,現實世界中,可以近似的認為 相關性約等于因果關系,或者相關性至少可以為我們尋找因果關系提供一點啟發)。

用Python進行相關性分析

畫散點圖,方法如下:

畫散點圖矩陣的方法,如下:

計算系數

pearson(皮爾遜)相關系數要求樣本滿足正態分布。

兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商,其值介于-1與1之間。

Sperman秩相關系數,皮爾森相關系數主要用于服從正太分布的連續變量,對于不服從正太分布的變量,分類關聯性可采用Sperman秩相關系數,也稱等級相關系數。

通過機器學習的方式探索因果模型

這部分我們會介紹一些最流行的機器學習模型類型,這也是我們發現相關性的一種武器。監督學習:監督學習算法是基于一組標記數據進行預測的。

比如:歷史銷售數據可以來預測未來的銷售價格。應用監督學習算法,我們需要一個包含標簽的訓練數據集。我們可以使用這個訓練數據集去訓練我們的模型,從而得到一個從輸入數據到輸出期望數據之間的映射函數。

這個模型的推斷作用是從一個數據集中學習出一種模式,可以讓這個模型適應新的數據,也就是說去預測一些沒有看到過的數據。

分類:當數據被用于預測一個分類時,監督學習算法也可以稱為是一種分類算法。比如:我們的一張圖片可以被分類標記為狗或者貓。如果我們的分類標簽只有兩個類別,那么我們也把這個分類稱之為二分類問題。當我們需要分類的東西超過兩個類別的時候,這個模型就是一個多分類模型了。

回歸:當我們預測的值是一個連續值時,這個問題就變成了一個回歸問題。

預測:這是根據過去和現在的一些歷史數據,來預測將來的數據。最常用的一個領域就是趨勢分析。比如:我們可以根現在和過去幾年的銷售額來預測下一年的銷售額。

關于機器學習的模型

監督學習主要包括用于分類和用于回歸的模型:

  • 分類:線性分類器(如LR)、支持向量機(SVM)、樸素貝葉斯(NB)、K近鄰(KNN)、決策樹(DT)、集成模型(RF/GDBT等)
  • 回歸:線性回歸、支持向量機(SVM)、K近鄰(KNN)、回歸樹(DT)、集成模型(ExtraTrees/RF/GDBT)

關于各個模型的關系和選取原則可以參考下面圖片:

最后總結一下

對模型空間做了一個綜述,著重介紹了因果關系探索的一些數學模型:

講個小故事,關于測量,一米等于多少?

1791年,著名科學家拉格朗日,當選為法國度量衡委員會主席。在他全力推動下,一項影響了全世界的長度單位——米浮出水面。

法國相關當局規定:把經過巴黎的地球子午線,也就是經線長的四千萬分之一定義為1米。通俗地說,l米是從地球北極到赤道距離的一千萬分之一,1791年3月25日(距今227年),法國國民議會決定采納了只基于一個長度基本單位“米”的計量制度?,F在全球通用的國際長度單位米,則由此規定而來。

剩下的問題是如何測量地球子午線的長度了?

那可是200年前,沒有飛機,沒有核動力航母,于是拿破侖真的派了倆隊人一隊去北極,一隊去秘魯……開始了測赤道……7年之后倆隊人返回測得了結果是57422toise(法國當時長度單位)。

人類為了量化一個對象,有多努力……

 

作者:小祁愛數據,公眾號:小祁同學的成長故事

本文由 @小祁愛數據 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!