數據分析的核心:建模
為什么我們要系統的研究建模過程?我們去擴展一個學科邊界的兩條路徑,去研究底層概念去擴展應用領域,我們今天從底層入手。
為什么我們要通過模型認識世界?
為什么我們不直接認識世界,而是要通過模型?
生命有限,時間有限,我們不可能面面俱到的去考察世界的方方面面,我們必然需要作出選擇,去找到關鍵,模型就是一系列積累了前人的認識和描述世界智慧的經驗.。生活中我們,都在自覺或者不自覺的使用模型。
舉個栗子:我們馬上要期末了,經過認真的學習,我們考了80分,自我感覺不錯啊。都80分了,應該算是個優了。但是實際上可能存在這樣一些情況:滿分是200分……全班平均分90分……
這個過程中,我們無形之中使用了一個模型叫做比較:量綱一致,有基準的情況下,a>b才有意義。 圍繞這個簡單的模型,各個學科發展出了龐雜的應用,比如:經濟學中的成本/金融學中的理想收益基準等等。
為什么我們要系統的研究建模過程?我們去擴展一個學科邊界的倆條路徑,去研究底層概念去擴展應用領域。我們今天從底層入手。
1. 模型的概念
在日常話語體系中,我們往往存在這樣的認知:建模=數學=科學=高大上=和我無關。
為了打破大家對于模型先天的一些偏見,我們先從本質上看模型到底是什么?模型其實就是抽象空間的一套演繹體系。
我們先看一下什么是抽象空間?
抽象空間是相對于現實空間而言的,現實中我們面對的世界往往是無窮無盡的,世界上有無窮的對象,每個對象有無窮的維度等著我們去認知,面對這樣的世界,我們是沒有辦法直接去認識,我們需要主觀的先建立一套選擇標準,再選擇一些特定對象,選擇一些特定的維度,特定的過程,這個選擇構成的集合就叫做抽象空間。
有些抽象空間是雜亂無章,互相矛盾的,比如:我們大多數普通人的思維世界其實就處在這樣一個狀態,大多數時候,我們不知道自己的信仰是什么,不知道自己世界觀是什么,也不知道自己的價值觀是什么,個人選擇受環境的干擾特別大。
然而,還有一類抽象空間,里面的假設非常堅固,或者反映了人類社會的普遍訴求,比如:公平/正義/自由等,或者反映了科學共同體的基本共識,比如:能量守恒;或者是完全建構在抽象世界里的描述,比如:倆點之間直線最短。演繹論證非常嚴密,這一類抽象空間構成了人類智慧的結晶。
我們這里的模型,特指后者,一些凝聚了人類發展過程中智慧結晶的抽象空間描述。
知道了什么是模型,我們再來看看什么是建模過程? 建模的本質其實是 現實世界和抽象空間的映射。
在數學里,映射是個術語,指兩個元素的集之間元素相互“對應”的關系。從這個定義里就可以看出,建模其實不存在絕對的對錯,建模的方式,因為映射空間的不同,也可能存在千萬種,但是我們如何選擇建模方式呢?畢竟我們不能挨個建一遍吧?
我們評價一個模型的好壞可以從倆方面展開:
- 模型是否反映了對象的重要特征;
- 模型和現實的擬合情況(解釋/預測/復現)。
最后需要指出的是,任何模型都是一部“有色眼鏡”,它在幫我們看清一些東西的時候,同時也遮蔽了我們對另外一些對象的觀察。
所有模型都是錯的,但是有些模型是有用的。
2. 數學建模的過程
數據分析的建模過程中,大多數時候,我們還是選擇數學空間作為我們的映射對象。數學建模是應用學科的核心內容,任何一門科學都是在數學的框架下表達自己解決問題的思想和方法,并和別的專業或者方向分享這些思想和方法。任何一門學科,只有當其使用數學時,才是好的精確的學科。
分析實際問題中的各種因素,使用變量表示;分析這些變量之間的關系,哪些是相互依存的,哪些是獨立的,他們具有什么樣的關系;根據實際問題選用合適的數學框架(典型的有優化問題,配置問題等等),并具體的應用問題在這個數學框架下表出;選用合適的算法求解數學框架下表出的問題; 使用計算結果解釋實際問題,并且分析結果。
(1)模型假設
根據對象的特征和建模目的,對問題進行必要的、合理的簡化,用精確的語言作出假設,是建模至關重要的一步。如果對問題的所有因素一概考慮,無疑是一種有勇氣但方法欠佳的行為。
所以高超的建模者能充分發揮想象力、洞察力和判斷力,善于辨別主次,而且為了使處理方法簡單,應盡量使問題線性化、均勻化。
(2)模型選擇
根據所作的假設分析對象的因果關系,利用對象的內在規律和適當的數學工具,構造各個量間的等式關系或其它數學結構。這時,我們便會進入一個廣闊的應用數學天地,這里在高數、概率老人的膝下,有許多可愛的孩子們,他們是圖論、排隊論、線性規劃、對策論等許多許多,真是泱泱大國,別有洞天。
不過我們應當牢記,建立數學模型是為了讓更多的人明了并能加以應用,因此工具愈簡單愈有價值。
(3)模型求解
可以采用解方程、畫圖形、證明定理、邏輯運算、數值運算等各種傳統的和近代的數學方法,特別是計算機技術。一道實際問題的解決往往需要紛繁的計算,許多時候還得將系統運行情況用計算機模擬出來,因此編程和熟悉數學軟件包能力便舉足輕重。
(4)模型分析
對模型解答進行數學上的分析,“橫看成嶺側成峰,遠近高低各不同”。能否對模型結果作出細致精當的分析,決定了你的模型能否達到更高的檔次。還要記住,不論那種情況都需進行誤差分析,數據穩定性分析。
(5)模型應用
把數學上分析的結果翻譯回到現實問題,并用實際的現象、數據與之比較,檢驗模型的合理性和適用性。
(6)模型評價
取決于問題的性質和建模的目的。
3. 模型空間概述
模型的分類標準,也可以表達成模型有幾方面的特征.這里做一個簡單的列舉,下次會結合具體案例對每類模型做一個簡單綜述:
總結
所有模型都是錯的,但是有些模型是有用的。
作者:小祁愛數據,公眾號:小祁同學的成長故事
本文由 @小祁愛數據 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
數據建模其實就是找到能體現現實意義(現實空間)的數據指標(數學空間)。比如我們用子頁面的瀏覽量÷父頁面的瀏覽量來表示該子頁面在父頁面上的轉化程度,其實這就是一次建模,只有建模,數據指標才有現實意義,只有思考明白了這一點,才能做數據分析,否則數據分析就是紙上談兵毫無意義的。作者講的其實是非常底層的邏輯,覺得看不懂是因為沒有花時間認真思考和實踐這一塊領域。
完全看不懂呀。
?1
說的很專業,但是看不懂,就和專家一樣講了半天很高大上的樣子,臺下沒人看懂
閱