從0到1,輕松構(gòu)建數(shù)據(jù)預(yù)測(cè)模型
編輯導(dǎo)語(yǔ):利用數(shù)據(jù)預(yù)測(cè)模型,有助于我們更加方便且直觀地獲取信息,觀測(cè)發(fā)展態(tài)勢(shì)。那么,我們可以如何構(gòu)建好一個(gè)數(shù)據(jù)預(yù)測(cè)模型呢?本篇文章里,作者結(jié)合實(shí)際案例,總結(jié)了從0到1構(gòu)建數(shù)據(jù)預(yù)測(cè)模型的流程與方法,一起來(lái)看一下。
之前和大家分享了趨勢(shì)型預(yù)測(cè)方法,很多小伙伴想看躺平型與周期型預(yù)測(cè),今天它們來(lái)了。
首先回顧一下,常見的數(shù)據(jù)走勢(shì)有三種:
- 趨勢(shì)型:連續(xù)發(fā)展的態(tài)勢(shì)。
- 躺平型:變動(dòng)較少,一條直線。
- 周期型:有規(guī)律的周期性波動(dòng)。
直接看圖,能一眼認(rèn)出來(lái)是哪一種(如下圖):
認(rèn)清楚走勢(shì)以后,就能選擇對(duì)應(yīng)的模型啦。
先看躺平型的例子。舉例:某門店業(yè)績(jī)數(shù)據(jù)如下圖所示,請(qǐng)預(yù)測(cè)2021年4月的業(yè)績(jī):
看到這張圖,很多小伙伴會(huì)直呼:這個(gè)看起來(lái),和100000的線很像呀,就是圍繞100000的線在波動(dòng),我能直接按100000去預(yù)測(cè)嗎?
答:當(dāng)然可以呀。躺平型只要躺的夠“平”,完全可以用平均值來(lái)做預(yù)測(cè)值。還有專門的方法叫:移動(dòng)平均值法,即把近N期的數(shù)據(jù)平均值,作為預(yù)測(cè)值。
不過這樣做有個(gè)問題:看起來(lái)不夠高大上,領(lǐng)導(dǎo)們又說:“有沒有大數(shù)據(jù)算法來(lái)搞搞……”哎,就是總有人迷信這個(gè),那就弄個(gè)看起來(lái)復(fù)雜一點(diǎn)的:用指數(shù)平滑法來(lái)預(yù)測(cè)。
一、指數(shù)平滑法預(yù)測(cè)數(shù)據(jù)模型
用指數(shù)平滑法需要調(diào)用excel的分析工具,可以點(diǎn)擊上方的:文件→選項(xiàng),在加載項(xiàng)中選擇:分析工具箱。
設(shè)置好之后,就能在上方:數(shù)據(jù) 欄目,找到數(shù)據(jù)分析按鈕。點(diǎn)下去,就能看到各種常見的分析工具了。
第一步:做好數(shù)據(jù)處理(如下圖),選擇指數(shù)平滑方法。
第二步:選擇輸入?yún)^(qū)域,設(shè)好阻尼系數(shù)。
阻尼系數(shù)是啥意思?阻尼系數(shù)是一個(gè)0到1之間數(shù)字,可以簡(jiǎn)單理解成:
- 阻尼越大,真實(shí)值權(quán)重越小,即歷史情況參照意義越?。?/li>
- 阻尼越小,真實(shí)值權(quán)重越大,即歷史情況參照意義越大。
不過大家完全不用糾結(jié)這個(gè),完全可以設(shè)好幾個(gè)阻尼系數(shù),預(yù)測(cè)出來(lái)以后,看哪個(gè)預(yù)測(cè)的MSE值越小,就信哪個(gè)!簡(jiǎn)單迅速才能下班早?。P(guān)于MSE計(jì)算方法參見上一篇)
第三步:做好幾個(gè)預(yù)測(cè)值,然后看哪個(gè)MSE小。比如設(shè)阻尼系數(shù)為0.95.9.8.7,分別計(jì)算預(yù)測(cè)數(shù)據(jù)及MSE值如下:
看圖說話,阻尼系數(shù)0.8的時(shí)候MSE值最小,就它了,搞掂!
二、實(shí)例
再看個(gè)季節(jié)性預(yù)測(cè)的例子。舉例,某線上店鋪,銷售業(yè)績(jī)走勢(shì)如下圖(單位:萬(wàn)元)如何對(duì)2021年第一季度做預(yù)測(cè)呢?
顯然,店鋪業(yè)績(jī)受雙11、雙12大促影響明顯,4季度是旺季。這種走勢(shì)也不能直接用趨勢(shì)線來(lái)模擬,模擬出的趨勢(shì)線R平方只有0.0幾,完全不能用。但是,可以通過一個(gè)小技巧,把這個(gè)數(shù)據(jù)改造成可以用趨勢(shì)線模擬的形式。
第一步:先對(duì)數(shù)據(jù)做改造。改造方法如下圖,通過數(shù)據(jù)處理,模擬出季節(jié)變化趨勢(shì),這種方法叫:季節(jié)多元回歸。
第二步:進(jìn)行回歸分析。既然叫季節(jié)多元回歸,自然要調(diào)用回歸分析,在同樣的路徑:數(shù)據(jù)→數(shù)據(jù)分析里,找到回歸分析方法,然后輸入?yún)?shù):
第三步:解讀分析數(shù)據(jù)。這里又是讓人腦瓜子嗡嗡的時(shí)刻。不過不要怕,對(duì)大部分非數(shù)據(jù)分析專業(yè)的小伙伴,只要看幾個(gè)關(guān)鍵數(shù)字就好了.
從結(jié)果上看:
- R平方0.93,很好;
- 各個(gè)參數(shù)的P值,除了X1以外都很小,很好。
所以模型可用。還可以把X1:時(shí)間這個(gè)變量去掉。時(shí)間變量代表了長(zhǎng)期發(fā)展趨勢(shì),本身這個(gè)數(shù)據(jù)幾個(gè)周期也沒有很大長(zhǎng)期增長(zhǎng),所以去掉也是情理之中的。
有小伙伴可能好奇,做出來(lái)的模型為啥系數(shù)都是負(fù)的,真的沒問題嗎。沒有,注意這個(gè)數(shù)據(jù)本身就是Q4數(shù)值很大,那Q1、Q2、Q3的參數(shù)肯定就是負(fù)的了。
這樣就做完啦。想預(yù)測(cè)下個(gè)季度,可以增加一行:2021年1季度,對(duì)應(yīng)的參數(shù),t是21,Q1=1,Q2、Q3都是0,然后代入公式即可。這里留給讀者們自己試一下。
三、總結(jié)
以上就是今天整理的簡(jiǎn)單預(yù)測(cè)方法。其實(shí)真只有幾個(gè)數(shù)字要預(yù)測(cè)的話,即使丟給專業(yè)的算法工程師,他也是這么算的。我就親眼看見隔壁算法組小哥哥,打開excel拖了幾下,然后回個(gè)郵件給商品運(yùn)營(yíng)組的領(lǐng)導(dǎo),說:“這是大數(shù)據(jù)方法預(yù)測(cè)的,blabla……”那一刻我整個(gè)人都震驚了,點(diǎn)贊、收藏、轉(zhuǎn)發(fā)一鍵三連!
可能看完后,還有小伙伴會(huì)疑惑:領(lǐng)導(dǎo)們那么喜歡“建?!保麄冋娴牟欢畣?。其實(shí)這一點(diǎn)我還挺幸運(yùn)的,因?yàn)槲抑暗念I(lǐng)導(dǎo)就是接地氣的陳老師,他會(huì)把客戶的各種奇葩想法擋在門外,所以很少被不懂行的領(lǐng)導(dǎo)折騰。現(xiàn)在在互聯(lián)網(wǎng)某廠,有專門的算法組處理這些問題,也很少被糾結(jié)了。
從我接觸的客戶/同事來(lái)看,還真的是:懂行的不迷信,迷信的不懂行。所以為了早點(diǎn)下班,用一些看似高大上實(shí)則輕松快捷的方法還是很有必要的?;爝^關(guān)就好。
小伙伴們自己掌握方法以后,也不用再糾結(jié)啦。遇到這些小問題打開excel拖一拖,我們這些查數(shù)姑們也能早點(diǎn)下班呢。
作者:碼工小熊,微信公眾號(hào):碼工小熊
本文由 @碼工小熊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議
期待持續(xù)更新(感恩!?。?/p>
太強(qiáng)了!?。▌偤眯枰?!感恩?。。?/p>
“還可以把X1:時(shí)間這個(gè)變量去掉”是什么意思?是說最終的模型公式為“業(yè)績(jī)=1593.2-1178.1*Q1-1093.9*Q2-950*Q3”?