傳動(dòng)系統(tǒng)的方法:建立數(shù)據(jù)產(chǎn)品四部曲—設(shè)計(jì)偉大的數(shù)據(jù)產(chǎn)品
在過去的幾年中,我們已經(jīng)看到了許多基于建立預(yù)測(cè)模型的數(shù)據(jù)產(chǎn)品。這些產(chǎn)品包括從氣象預(yù)報(bào)到推薦引擎,再到航班起降時(shí)刻預(yù)測(cè)服務(wù),它的預(yù)測(cè)甚至比航空公司本身更準(zhǔn)確 。 但是,這些產(chǎn)品還只是進(jìn)行預(yù)測(cè),而不是告知對(duì)此預(yù)測(cè)結(jié)果該采取怎樣的行動(dòng)。預(yù)測(cè)技術(shù)可以是有趣的,而且具有數(shù)學(xué)上的優(yōu)雅性,但我們需要更進(jìn)一步。這項(xiàng)技術(shù)可以幫助我們建立徹底改變整個(gè)行業(yè)的數(shù)據(jù)產(chǎn)品,有什么理由不去創(chuàng)建呢?
作為介紹這個(gè)過程的開始,我們已經(jīng)改變了保險(xiǎn)業(yè)的四部曲方法。 我們把它稱為傳動(dòng)系統(tǒng)方法,靈感源于新興領(lǐng)域的自駕駛車輛。工程師先是定義一個(gè)明確的目標(biāo) :他們想要汽車在無人干預(yù)地情況下,安全地從A點(diǎn)行駛到B點(diǎn)。成功的預(yù)測(cè)建模是這一解決方案極為重要的部分;但隨著產(chǎn)品復(fù)雜度的提高,它將不再是一個(gè)獨(dú)立的部分,而是融入到產(chǎn)品銜接中了。一些使用谷歌的自動(dòng)駕駛汽車的人并不知道,使它它工作的是其背后上百成千種的數(shù)據(jù)模型和PB級(jí)的數(shù)據(jù)。數(shù)據(jù)科學(xué)家構(gòu)建的產(chǎn)品日益復(fù)雜,他們需要一個(gè)系統(tǒng)的設(shè)計(jì)方法。傳動(dòng)系統(tǒng)方法不一定是最好或唯一的方法;我們的目的是在數(shù)據(jù)科學(xué)和商業(yè)社區(qū)之間建立起對(duì)話,以推動(dòng)我們共同的目標(biāo)。
基于目標(biāo)的數(shù)據(jù)產(chǎn)品
還是算法搜索世界的王者。雖然它們的模型善于尋找具有相關(guān)性的網(wǎng)站,但是用戶最感興趣的結(jié)果往往出現(xiàn)在搜索結(jié)果中的百頁以后,用戶幾乎不可能訪問到。之后,谷歌來了,以一個(gè)簡(jiǎn)單的問題改變的在線搜索:用戶搜索的主要目的是什么? 傳動(dòng)系統(tǒng)方法的四部曲
谷歌認(rèn)識(shí)到,搜索目的是為了找到最相關(guān)的搜索結(jié)果;對(duì)于其他公司,目的可能是增加利潤(rùn)、改善客戶體驗(yàn)、找到機(jī)器人的最佳路線,或是對(duì)數(shù)據(jù)中心進(jìn)行負(fù)載平衡。一旦我們定義了目標(biāo)之后,第二個(gè)步驟是找出系統(tǒng)中可控的輸入 ,即那些可以調(diào)整并影響最終的結(jié)果的杠桿因素。對(duì)于谷歌,他們可以控制搜索結(jié)果中的排名。第三步是思考產(chǎn)生這樣的排名需要什么樣新數(shù)據(jù);他們意識(shí)到,網(wǎng)頁被鏈接到哪些其它網(wǎng)頁這一隱含的信息可以被用于此目的。只有這前三個(gè)步驟后,我們開始思考建立預(yù)測(cè)模型 。我們的目標(biāo)、可用的杠桿因素、已有的數(shù)據(jù)加上所需收集的額外數(shù)據(jù),決定了我們能建立何種模型??煽馗軛U因素和所有不可控因素都將作為該模型的輸入;模型的所有輸出結(jié)果將被結(jié)合起來預(yù)測(cè)我們目標(biāo)的最終情況。
谷歌所用的傳動(dòng)系統(tǒng)方法中的第四步現(xiàn)在已是高科技?xì)v史的一部分了:拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)發(fā)明了圖的遍歷算法PageRank,并由此建立了革命性的搜索引擎。但是,你也不是非得發(fā)明下一個(gè)PageRank才能建立一個(gè)了不起的數(shù)據(jù)產(chǎn)品。我們將介紹一個(gè)系統(tǒng)化的步驟四方法,沒有計(jì)算機(jī)博士學(xué)位也照樣能用。
模型裝配線:最優(yōu)決策祖的案例研究
從合適的預(yù)測(cè)模型優(yōu)化出下一步該如何行動(dòng),這可能是公司最重要的戰(zhàn)略決策。對(duì)于保險(xiǎn)公司,價(jià)格政策就是他們的產(chǎn)品,所以一個(gè)最優(yōu)的定價(jià)模型之于它們就像是制造裝配生產(chǎn)線之于汽車生產(chǎn)商。保險(xiǎn)業(yè)有幾百年的預(yù)測(cè)經(jīng)驗(yàn),但在近十年,保險(xiǎn)公司往往對(duì)于每名新客戶該收取多少費(fèi)用無法做出一個(gè)商業(yè)上最優(yōu)的判斷。他們的精算師可以建立模型來預(yù)測(cè)客戶發(fā)生事故的可能性和相關(guān)索賠的預(yù)期值,但是這些模型并不能解決定價(jià)問題,所以保險(xiǎn)公司只能在結(jié)合市場(chǎng)研究的基礎(chǔ)上猜測(cè)一個(gè)定價(jià)。這種情況在1999年因?yàn)橐患颐麨樽顑?yōu)決策小組而得到了改變。
作為傳動(dòng)系統(tǒng)方法的一個(gè)早期運(yùn)用,ODG實(shí)踐了其中的步驟四——它可以應(yīng)用于很多廣泛的問題。首先,他們定義了保險(xiǎn)公司的目標(biāo) :最大化新顧客在一段年限內(nèi)的利潤(rùn)凈現(xiàn)值,但同時(shí)又要考慮到一些其它因素,例如保持市場(chǎng)份額。就這樣,他們發(fā)展出一個(gè)優(yōu)化的定價(jià)過程,為保險(xiǎn)公司增加了數(shù)百萬美元的保底利潤(rùn)。[ 注:本文的共同作者杰里米·霍華德(Jeremy Howard)創(chuàng)辦了ODG。
ODG確定的那些保險(xiǎn)公司的可控杠桿因素:向每個(gè)客戶收取的價(jià)格,覆蓋的事故類型,在市場(chǎng)營(yíng)銷和客戶服務(wù)上花的花費(fèi),以及如何應(yīng)對(duì)其競(jìng)爭(zhēng)對(duì)手的定價(jià)方案。他們也考慮了不可控因素:如競(jìng)爭(zhēng)對(duì)手的戰(zhàn)略、宏觀經(jīng)濟(jì)的情況、自然災(zāi)害以及客戶的“粘性”。他們還考慮了需要什么樣的額外的數(shù)據(jù)來預(yù)測(cè)客戶對(duì)于價(jià)格變動(dòng)的反應(yīng)。為了建立這些數(shù)據(jù)集,這就有必要持續(xù)幾個(gè)月地隨機(jī)改變成百上千條定價(jià)策略。雖然保險(xiǎn)公司不愿在這些真實(shí)客戶身上做實(shí)驗(yàn),因?yàn)樗麄冿@然會(huì)因此失去一些客戶;但在優(yōu)化定價(jià)政策可能帶來的巨大收益面前,他們還是動(dòng)搖了。最終,ODG開始設(shè)計(jì)能夠最大化保險(xiǎn)公司利潤(rùn)的模型 。
傳動(dòng)系統(tǒng)方法第四步:模型裝配生產(chǎn)線。圖形化的數(shù)據(jù)產(chǎn)品的模型裝配生產(chǎn)線,可將原始數(shù)據(jù)轉(zhuǎn)化為下一步的行動(dòng)。這個(gè)建模器將原始數(shù)據(jù)轉(zhuǎn)換成稍加提煉的預(yù)測(cè)數(shù)據(jù)。
ODG建模器中的第一個(gè)組件是一個(gè)關(guān)于新保單和續(xù)單的價(jià)格彈性模型(用戶接受一個(gè)給定價(jià)格的概率)。價(jià)格彈性模型反映的是用戶接受保單的概率和保單價(jià)格之間的關(guān)系。這條曲線從低價(jià)時(shí)的幾乎肯定接受一直到高價(jià)時(shí)的幾乎不可能接受。
ODG建模器第二個(gè)組件在考慮能夠接受保單價(jià)格的客戶的情況下,把保險(xiǎn)公司的利潤(rùn)和產(chǎn)品價(jià)格進(jìn)行關(guān)聯(lián)。極低價(jià)格下的利潤(rùn)在考慮第一年的預(yù)期索賠加上獲取及維護(hù)新客戶的開銷后被計(jì)算出,并被顯示為紅色。這兩條曲線相乘將得到一個(gè)最終的曲線,顯示了價(jià)格與預(yù)期收益的對(duì)應(yīng)關(guān)系(見下方的預(yù)期利潤(rùn)圖 )。最后的曲線有一個(gè)清晰可辨的局部最大值,表明了第一年應(yīng)當(dāng)給于用戶的最佳價(jià)格。
預(yù)期利潤(rùn)
ODG還建立了客戶忠誠(chéng)度的模型。這些模型在考慮價(jià)格變化和客戶轉(zhuǎn)投競(jìng)爭(zhēng)對(duì)手公司的意愿的情況下,預(yù)測(cè)客戶是否會(huì)在一年內(nèi)續(xù)保。這些額外的模型結(jié)合年度模型將能夠預(yù)測(cè)未來五年內(nèi)一個(gè)新用戶所能帶來的利潤(rùn)。
這套新的模型仍不是一個(gè)最終答案,因?yàn)樗荒艽_定一個(gè)給定輸入的結(jié)果。“裝配生產(chǎn)線“上下一個(gè)”機(jī)器“是一個(gè)模擬器 ,通過它,ODG可以問“假如……會(huì)怎樣”的問題,來觀察杠桿因素是如何影響最終結(jié)果的分布的。把可能出現(xiàn)的結(jié)果作為一個(gè)曲面,預(yù)期利潤(rùn)曲線僅僅是這個(gè)曲面的一個(gè)切片。要建立整個(gè)曲面,模擬器需要在模型上運(yùn)行大范圍的輸入。操作員可以調(diào)整輸入的杠桿因素桿來回答一些特定的問題,比如“如果公司在第一年為客戶提供一個(gè)誘惑性的低價(jià),然后在第二年提高價(jià)格,將會(huì)有何結(jié)果?”他們也可以探尋那些對(duì)于保險(xiǎn)公司來說的不可控因素是如何影響利潤(rùn)的分布的:“如果經(jīng)濟(jì)崩潰并且客戶失去了他的工作,那會(huì)怎樣?如果他的家遭遇了百年一遇的洪水又如何?如果一個(gè)新競(jìng)爭(zhēng)者進(jìn)入市場(chǎng),我們公司又不加應(yīng)對(duì),會(huì)對(duì)我們的底線造成怎樣的影響?“由于模擬是在每一個(gè)政策層面的,保險(xiǎn)商可以看到一組給定的價(jià)格變動(dòng)對(duì)收入,市場(chǎng)份額,隨著時(shí)間的推移和其他指標(biāo)的影響。
模擬器的結(jié)果將被導(dǎo)入優(yōu)化器 ,它將確定出代表了所有可能結(jié)果的曲面中的最高點(diǎn)。優(yōu)化器不僅找最好結(jié)果,它也可以識(shí)別那些災(zāi)難性的后果,并告知如何避免它們。我們已有很多不同的優(yōu)化技術(shù)可供選擇( 見下面的邊欄 ),這是一個(gè)為人所熟知的領(lǐng)域,已有了強(qiáng)健和易用的解決方案。雖然ODG的競(jìng)爭(zhēng)對(duì)手在找最佳的價(jià)格上所用的技術(shù)有所不同,但他們推出的同樣是一個(gè)具有全局性的數(shù)據(jù)產(chǎn)品。使用動(dòng)力傳動(dòng)系統(tǒng)模型和模型裝配線相結(jié)合的重要價(jià)值在于,這樣就可以在預(yù)測(cè)模型和可采取的行動(dòng)項(xiàng)之間架起了一座橋梁。 CloudPhysics公司的伊爾凡·艾哈邁德(Irfan Ahmed )對(duì)預(yù)測(cè)模型進(jìn)行了良好的分類,并且描述了整個(gè)裝配線過程:
“在需要處理成敗上千個(gè)組件模型以了解整個(gè)系統(tǒng)的行為的時(shí)候,‘搜索’的運(yùn)用是必需的。我把它看成是一個(gè)用來揭開帷幕的復(fù)雜的機(jī)器(整個(gè)系統(tǒng))通過受控的實(shí)驗(yàn),我們對(duì)這個(gè)機(jī)器的每個(gè)重要部分建模,然后模擬的它們之間的相互作用。注意這里的不同層次:各個(gè)組件的獨(dú)立模型;在一個(gè)給定的一組輸入的模擬器重相互捆綁在一起;通過搜索優(yōu)化器在不同的輸入集合上進(jìn)行優(yōu)化迭代。”
邊欄:現(xiàn)實(shí)世界中的優(yōu)化
優(yōu)化是一個(gè)經(jīng)典的問題,從牛頓和高斯開始直至現(xiàn)今的數(shù)學(xué)家和工程師們都在對(duì)此進(jìn)行研究。許多優(yōu)化過程是迭代的,這就像是先走一小步,查看我們的高度,然后再向上一小步,直到我們達(dá)到一個(gè)無論向哪個(gè)方向都無法爬上更高的點(diǎn)。這一爬山方法的危險(xiǎn)之處在于,如果步子太小了,我們可能會(huì)逗留在山腳下的局部最大值中,這就無法找到可控輸入中的最佳集合。已有很多技術(shù)用以避免這個(gè)問題,一些是基于統(tǒng)計(jì)學(xué)并且把對(duì)最佳結(jié)果的猜測(cè)范圍撒得更廣;還有一些是基于自然界中見到系統(tǒng),像是生物進(jìn)化或玻璃中的原子冷卻過程。
優(yōu)化是一個(gè)我們?cè)谌粘I钪卸己苁煜さ倪^程,即使我們從來沒有使用過類如梯度下降法或是模擬退火的優(yōu)化算法。一個(gè)最近的TechZing播客提供了一個(gè)現(xiàn)實(shí)世界中優(yōu)化的非常好的寫照,這篇播客來自于數(shù)據(jù)挖掘的競(jìng)賽平臺(tái)Kaggle的共同創(chuàng)辦人。本文的作者之一解釋了一種迭代優(yōu)化技術(shù),然后主持人說到,“因此,在一定意義上杰里米(Jeremy),你的方法就像是在做一個(gè)創(chuàng)業(yè)公司——先做一些東西出來,然后反復(fù)地迭代,迭代,再迭代?!币痪湓?,不管你是一個(gè)小型創(chuàng)業(yè)公司或者是一家保險(xiǎn)巨頭,當(dāng)我們要決定如何去我們想去的地方的時(shí)候,我們都在不自覺地使用優(yōu)化。
推薦系統(tǒng)中的傳動(dòng)系統(tǒng)方法
讓我們來看看我們?nèi)绾文軌驊?yīng)用此過程到另一個(gè)行業(yè):市場(chǎng)營(yíng)銷。首先,我們的傳動(dòng)系統(tǒng)方法應(yīng)用到一個(gè)熟悉的例子,推薦引擎,然后由此建立一個(gè)完整的優(yōu)化營(yíng)銷策略。
推薦引擎是為人熟知的數(shù)據(jù)產(chǎn)品例子,它是基于精心打造的預(yù)測(cè)模型的,但是并不牽涉尋求最佳結(jié)果。目前的算法會(huì)根據(jù)客戶以及和他相似的客戶和購(gòu)買歷史來預(yù)測(cè)客戶會(huì)喜歡什么樣的產(chǎn)品,像亞馬遜這樣的公司,把每一次交易表示成一個(gè)巨大的稀疏矩陣,行是客戶,列是商品。一旦他們有了這種格式的數(shù)據(jù),數(shù)據(jù)科學(xué)家就可以應(yīng)用某種形式的協(xié)同過濾來“填寫矩陣”。例如,如果用戶A購(gòu)買產(chǎn)品1和10,客戶B購(gòu)買產(chǎn)品1,2,4,10,推薦引擎會(huì)建議A買2和4。這些模型能夠不錯(cuò)地預(yù)測(cè)客戶是否會(huì)喜歡某個(gè)給定的產(chǎn)品,但他們推薦的產(chǎn)品往往是顧客已經(jīng)知道或已決定不買的了。亞馬遜的推薦引擎可能是現(xiàn)有中最好的一個(gè),但很容易就能顯示出它的問題。,以顯示其疣。以下這張截圖是關(guān)于在亞馬遜上搜索泰瑞 普萊契(Terry Pratchett)的“ Discworld系列中最新圖書后,“購(gòu)買了此商品的用戶還購(gòu)買了“這一欄內(nèi)顯示的內(nèi)容。
所有的推薦都是同一系列的其他書籍,但是一個(gè)很好的假設(shè)就是:這些書對(duì)于一個(gè)搜索了“泰瑞 普萊契(Terry Pratchett)”的客戶都是早就知道了的書。一些預(yù)料之外的建議可能會(huì)出現(xiàn)在這一欄的第二到第十四頁,但有多少客戶會(huì)不厭其煩的一一看下去呢?
除了這種方法,讓我們用傳動(dòng)系統(tǒng)方法來設(shè)計(jì)一個(gè)改進(jìn)過的推薦引擎。我們從重新考慮我們的目標(biāo)開始 。推薦引擎的目的是通過推薦一些如果沒有推薦,用戶可能不會(huì)購(gòu)買,但是又能讓用戶驚喜和興奮的書,以此來推動(dòng)額外的銷售。我們真正想要的是模擬馬克·約翰遜(Mark Johnson Zite )的體驗(yàn) ,他在最近的談話莫里森的另一些書和其他一些寫有關(guān)種族話題的知名女性作家的作品。斯特蘭德書商的推薦很有才,也很難做到。這個(gè)推薦可能更多的是基于莫里森的文筆特質(zhì)而非和其他作者的表面上的相似性。她透過表面直達(dá)本質(zhì)的推薦將使客戶帶著一本新書回家,并且在今后會(huì)一而再,再而三地回到斯特蘭德。
這不是說,亞馬遜的推薦引擎不能做到相同關(guān)聯(lián)性;可問題是有用的推薦被深深地隱匿在許多推薦項(xiàng)之下,遠(yuǎn)在那些和“寶貝兒”有著明顯相似性的書之下。我們的目標(biāo)是為了避免推薦的過濾泡沫。這一術(shù)語最早由禮·帕里澤(Eli Pariser)提出,用來描述個(gè)性化的新聞源有這樣一種傾向性:趨于顯示一些只有平淡無奇的大眾觀點(diǎn)的文章或者只是進(jìn)一步確認(rèn)讀者已有偏見的文章。
相對(duì)AltaVista-Google的例子來說,一個(gè)書商可以控制杠桿因素就是推薦排名。必須收集新的數(shù)據(jù)來生成新的推薦以此帶來新的銷售。這將需要進(jìn)行許多隨機(jī)試驗(yàn)以收集數(shù)據(jù),這些數(shù)據(jù)需要覆蓋對(duì)于大范圍客戶的全方位推薦。
傳動(dòng)系統(tǒng)過程中的最后一步是建立模型裝配線 。避免推薦泡沫的一種方法是建立一個(gè)包含兩種購(gòu)買概率模型的建模器,分別針對(duì)看見推薦和沒有看見推薦的情況。這兩個(gè)概率之差就是對(duì)于一個(gè)給定顧客的推薦的效用函數(shù)(見下方推薦引擎圖)。函數(shù)值在兩種情況下很低:該算法推薦的是一本挺常見的,已經(jīng)被客戶拒絕了的書(兩個(gè)都是低函數(shù)值)或一本即使不推薦,他也會(huì)買的書(兩個(gè)都是高函數(shù)值,亦顯示不出區(qū)別) 。我們可以建立一個(gè)模擬器來測(cè)試我們庫(kù)存中種種圖書的效用;或者只是把協(xié)作過濾模型(有關(guān)相似客戶的交易的模型)的輸出結(jié)果重新處理一邊,然后建立一個(gè)簡(jiǎn)單的優(yōu)化器,把推薦的圖書按照模擬出的效用來排名顯示。通常來說,當(dāng)我們選擇一個(gè)目標(biāo)函數(shù)來優(yōu)化時(shí),我們更多強(qiáng)調(diào)的是“目biao”而非“功能”。什么是我們數(shù)據(jù)產(chǎn)品的用戶的目的?我們到底在幫助他做怎樣的選擇?
推薦引擎
優(yōu)化顧客終身價(jià)值
相同的系統(tǒng)方法可以被用來優(yōu)化整個(gè)營(yíng)銷策略。這可以包括零售商在實(shí)際買賣交易之外和其客戶的所有互動(dòng):是否做產(chǎn)品推薦,鼓勵(lì)客戶了解網(wǎng)上商店的一個(gè)新功能,或是發(fā)送促銷活動(dòng)信息。選擇錯(cuò)誤的代價(jià)對(duì)于零售商意味著利潤(rùn)減少(打折銷售并沒有帶動(dòng)額外的營(yíng)業(yè)額),損失機(jī)會(huì)成本,(例如主頁上的稀缺性房地產(chǎn)信息,以及推薦欄位被一些用戶不喜歡或者即使沒有推薦也仍然會(huì)購(gòu)買的東西所占據(jù)),或是導(dǎo)致客戶的流失(發(fā)送了過多無用的電子郵件促銷,導(dǎo)致客戶把所有將來的郵件過濾成了垃圾郵件)。我們將告訴你如何去建立一個(gè)優(yōu)化的營(yíng)銷策略,來減輕這些影響。
在之前的每個(gè)例子中,我們都首先問一個(gè)問題:“什么是營(yíng)銷策略試圖達(dá)到的目標(biāo)?”答案很簡(jiǎn)單:我們希望優(yōu)化每個(gè)客戶的終身價(jià)值。第二個(gè)問題:“有什么杠桿因素 是我們可以加以利用去實(shí)現(xiàn)這一目標(biāo)的?”有不少,例如例如:
- 我們可以使產(chǎn)品推薦是令人感到驚訝和愉悅的(使用上一節(jié)中列出的優(yōu)化建議)。
- 我們可以針對(duì)顧客并沒完全準(zhǔn)備購(gòu)買或是會(huì)去其他商家購(gòu)買的產(chǎn)品提供量身定制的折扣或特殊的優(yōu)惠,
- 我們甚至可以同過客戶關(guān)懷電話,關(guān)心用戶有多喜歡我們的網(wǎng)站,讓他們覺得他們的意見是有價(jià)值的。
我們需要收集怎樣的新數(shù)據(jù)?不同情況的答案各不相同,在這一步,一些網(wǎng)上零售商正采取創(chuàng)造性的方法。在線時(shí)尚零售商的Zafu展示了如何鼓勵(lì)客戶參與這個(gè)收集過程。賣名牌牛仔布的網(wǎng)站很多,但對(duì)于很多女性來說,高檔牛仔褲的服裝是她們從來沒有在網(wǎng)上買過的,因?yàn)椴辉嚧┑脑掚y找到合適的。Zafu的做法是不讓客戶直接去看衣服,而是用一些簡(jiǎn)單的問題作為開始,通過詢問客戶的身型,以及其他牛仔褲的合身情況,和他們的時(shí)尚偏好。這些之后,客戶才開始瀏覽Zafu從庫(kù)存挑選出的推薦。數(shù)據(jù)收集和推薦不再是一個(gè)附加功能,他們已經(jīng)是Zafu的整個(gè)商業(yè)模式 —— 女式牛仔褲既是數(shù)據(jù)產(chǎn)品。Zafu可以把他們的推薦調(diào)整得就像是他們的牛仔褲一樣的合身,因?yàn)樗麄兊南到y(tǒng)問了正確的問題。
以目標(biāo)作為開始迫使數(shù)據(jù)科學(xué)家們開始考慮他們需要為建模器建立哪些額外的模型。我們可以保留我們已有的“相似”模型,以及針對(duì)有推薦和沒有推薦情況下的因果關(guān)系模型,然后采取分階段的方式來增加我們認(rèn)為將改善的營(yíng)銷效果的額外的模型。我們可以添加一個(gè)價(jià)格彈性模型來測(cè)試提供折扣將如何影響用戶購(gòu)買商品的概率。我們可以對(duì)于客戶對(duì)針對(duì)性差勁的定向廣告的忍耐力構(gòu)造一個(gè)耐性模型:他們什么時(shí)候做出調(diào)整把我們信息直接過濾成垃圾郵件?(“如果Hulu再給我看一次這個(gè)狗糧廣告,我就走人了!”)一種購(gòu)買順序因果關(guān)系模型可以用來識(shí)別關(guān)鍵的“引入性產(chǎn)品”。例如,一個(gè)條牛仔褲往往會(huì)和某件上衣搭配著買,或是某系列小說的第一部分往往會(huì)導(dǎo)致之后這一系列的整套出售。
有了這些模型后,我們就可以構(gòu)建了一個(gè)模擬器和優(yōu)化器,在上面運(yùn)行組合起來的模型,以找出什么推薦將實(shí)現(xiàn)我們的目標(biāo):推動(dòng)銷售和改進(jìn)客戶體驗(yàn)。
建模器的構(gòu)造
數(shù)據(jù)產(chǎn)品的最佳實(shí)踐
人們很容易陷入這樣的思維誤區(qū):因?yàn)閿?shù)據(jù)往往存儲(chǔ)在一些抽象的地方,比如在一個(gè)電子表格中或在云端的數(shù)據(jù)中,因此數(shù)據(jù)產(chǎn)品也就是一些抽象的算法。為此,我們希望向你展示基于目標(biāo)的數(shù)據(jù)產(chǎn)品是如何已經(jīng)成為這個(gè)有形的世界的一部分的。這些例子最重要的地方是,設(shè)計(jì)這些數(shù)據(jù)產(chǎn)品的工程師并不是一開始打造出一個(gè)華麗麗的機(jī)器人,然后再看看能用它做些什么。他們開始以這樣的目標(biāo):“我想要我的車帶我去不同的地方”,然后設(shè)計(jì)了一個(gè)鮮為人知數(shù)據(jù)產(chǎn)品來完成這一任務(wù)。工程師們經(jīng)常悄悄地在算法應(yīng)用上非常地領(lǐng)先,因?yàn)樗麄兂志玫匾恢痹谝曰谀繕?biāo)的方法思考自己的建模中的種種挑戰(zhàn)。首先開始使用神經(jīng)網(wǎng)絡(luò)的就是專業(yè)工程師們,把它們應(yīng)用到例如裝配生產(chǎn)線的優(yōu)化設(shè)計(jì)和質(zhì)量控制上。布賴恩·里普利(Brian Ripley’s)的有關(guān)模式識(shí)別的開創(chuàng)性著作為很多從20世紀(jì)70年代幾乎被人遺忘的工程文件贏得了應(yīng)有的贊譽(yù),它們包含了許多想法和技術(shù)。
當(dāng)設(shè)計(jì)一個(gè)產(chǎn)品或生產(chǎn)過程中,動(dòng)力傳動(dòng)系統(tǒng)模型的集成,模擬和優(yōu)化的過程,是系統(tǒng)工程師 工具包中一個(gè)很熟悉的部分。在工程中通常需要把許多的組件模型連接在一起,以便可以對(duì)它們一起進(jìn)行模擬、優(yōu)化。這些企業(yè)有充足的經(jīng)驗(yàn),為其最終產(chǎn)品的每一個(gè)部件和系統(tǒng)建造模型,無論他們要造的是一個(gè)服務(wù)器群或是噴氣式戰(zhàn)斗機(jī)。我們可能會(huì)有一個(gè)機(jī)械系統(tǒng)的詳細(xì)模型,一個(gè)單獨(dú)有關(guān)熱系統(tǒng)的一個(gè)單獨(dú)的模型,還有一個(gè)是為電氣系統(tǒng)設(shè)計(jì)的模型,等等。所有這些系統(tǒng)都相互有著至關(guān)重要的作用。例如,在電氣系統(tǒng)的電阻產(chǎn)生的熱量會(huì)作為一部分輸入導(dǎo)入熱擴(kuò)散和冷卻模型。這多余的熱量會(huì)造成機(jī)械部件的變形,產(chǎn)生需要輸入機(jī)械模型的壓力。
下面的截圖是從由鳳凰集成設(shè)計(jì)的模型集成工具中截取的。雖然這張圖來自于一個(gè)完全不同的工程學(xué)科,但是卻和我們推薦的用來建立數(shù)據(jù)產(chǎn)品的傳動(dòng)系統(tǒng)方法非常相似。目標(biāo)很清晰:建立一個(gè)飛機(jī)機(jī)翼。j翼盒的設(shè)計(jì)包括諸如跨度,錐度比和掠度這些杠桿因素 。數(shù)據(jù)存在于機(jī)翼材料的物理屬性之中;成本被列在了應(yīng)用程序的另一個(gè)選項(xiàng)卡中。此外還有一個(gè)關(guān)于空氣動(dòng)力學(xué)性能和機(jī)械結(jié)構(gòu)的建模器,它可以被輸入到一個(gè)模擬器來產(chǎn)生關(guān)鍵翼的輸出,包括成本,重量,升力系數(shù)和誘導(dǎo)阻力。這些結(jié)果可以用來輸入到一個(gè)優(yōu)化器以建造一個(gè)既能正常運(yùn)作且成本也很劃算的機(jī)翼。
鳳凰集成設(shè)計(jì)的模型集成工具的截圖
預(yù)測(cè)性建模和優(yōu)化在廣泛的活動(dòng)中變得越來越至關(guān)重要,讓我們拭目以待那些能夠擾亂行業(yè)的工程師們,雖然這并不會(huì)立即出現(xiàn)在數(shù)據(jù)業(yè)務(wù)中?!皠?dòng)力傳動(dòng)系統(tǒng)方法”的靈感, 已經(jīng)在山景城(Mountain View)的路上了,就是很好的例子 。不再是以數(shù)據(jù)驅(qū)動(dòng)的,我們現(xiàn)在可以讓數(shù)據(jù)驅(qū)動(dòng)我們。
設(shè)想我們想從舊金山去圣克拉拉(Santa Clara)參加2012年的Strata會(huì)議 。就此,我們即可建立一個(gè)有關(guān)距離/限速的簡(jiǎn)單模型來預(yù)測(cè)到達(dá)時(shí)間,是需要一把尺和路線地圖就可以做了。如果我們希望有一個(gè)更精致的系統(tǒng),我們可以再建一個(gè)交通擠塞情況的模型,然后再來一個(gè)預(yù)測(cè)天氣情況以及天氣對(duì)最大安全行駛速度影響的模型。建立這些模型的過程中,你會(huì)遇到很多很酷的挑戰(zhàn),但僅靠它們還不能帶我們到目的地。如今,用一些啟發(fā)式的搜索算法來預(yù)測(cè)不同路線的駕駛時(shí)間是件微不足道的事( 模擬器 ),然后可以在考慮例如“避免過橋費(fèi)”或者“最大化汽油的效用”等限制因素下選擇最短的一個(gè)路徑( 優(yōu)化器 。但是,為什么不想得更大一些?不再只是GPS裝置的女機(jī)器人聲音告訴我們?cè)撟吣臈l路線,該在哪里轉(zhuǎn)彎,如何能造出一輛自己就會(huì)做這些決定的汽車?為什么不把用一個(gè)物理引擎把仿真和優(yōu)化引擎捆綁在一起,統(tǒng)統(tǒng)放入汽車的黑盒子里?
讓我們想想這又是傳動(dòng)系統(tǒng)方法的一個(gè)怎樣的應(yīng)用。我們已經(jīng)定義了我們的目標(biāo) :建立一輛能夠自行駕駛的汽車。杠桿因素是我們都很熟悉的車輛的控制部件:方向盤,油門,剎車等。接下來,我們考慮汽車需要收集什么樣的數(shù)據(jù);它需要的傳感器來收集道路數(shù)據(jù),還需要攝像頭來檢測(cè)道路標(biāo)志、紅燈或者綠燈,以及意想不到的障礙(包括行人)。我們需要定義我們會(huì)用到的模型,例如預(yù)測(cè)轉(zhuǎn)向、剎車和加速相應(yīng)影響的物理模型,以及模式識(shí)別算法來把路標(biāo)轉(zhuǎn)換成數(shù)據(jù) 。
正如谷歌自動(dòng)駕駛汽車項(xiàng)目的一名工程師在最近的一篇《連線》雜志的文章中寫到,”我們每秒鐘要分析和預(yù)測(cè)世界20次?!边@句話中沒有提到的恰恰是這次預(yù)測(cè)產(chǎn)生的結(jié)果。汽車需要使用一個(gè)模擬器來檢查它各種可選的行動(dòng)都會(huì)導(dǎo)致怎樣的結(jié)果。如果它現(xiàn)在左轉(zhuǎn),會(huì)不會(huì)撞到行人呢?如果在這種天氣條件下以55英里每小時(shí)的速度右轉(zhuǎn),會(huì)不會(huì)打滑呢??jī)H僅預(yù)測(cè)會(huì)發(fā)生什么還不夠好。自行駕駛的汽車需要更進(jìn)一步:在 模擬了所有的可能性后,必須優(yōu)化模擬結(jié)果,挑選出加速、剎車、轉(zhuǎn)向以及信號(hào)燈的最佳組合,從而讓我們安全地抵達(dá)圣克拉拉。預(yù)測(cè)只告訴我們將要發(fā)生事故。優(yōu)化器會(huì)告訴我們?nèi)绾伪苊馐鹿拾l(fā)生。
改善的數(shù)據(jù)收集和預(yù)測(cè)模型是非常重要的,但我們要強(qiáng)調(diào)以定義一個(gè)清晰的目標(biāo)作為開始的重要性,而且目標(biāo)要配以能夠產(chǎn)生行動(dòng)項(xiàng)的杠桿因素。數(shù)據(jù)科學(xué)已經(jīng)開始遍及我們生活中的方方面面。由于科學(xué)家和工程師變得更善于預(yù)測(cè)和優(yōu)化日常問題,他們正在擴(kuò)大可能性,去優(yōu)化從我們個(gè)人的健康到我們所處的房子和城市的每一樣?xùn)|西。用來模擬流體動(dòng)力和湍流的模型被用于改善交通和行人流量 ,其中的杠桿因素就是出口的設(shè)置位置以及控制人群的障礙物。這改善了地鐵站的緊急疏散程序,并降低了在有體育賽事期間發(fā)生人群踩踏的危險(xiǎn)。Nest公司正在設(shè)計(jì)智能溫控器,它能夠?qū)W習(xí)房子主人對(duì)溫度偏好,然后優(yōu)化能源消耗。對(duì)于汽車交通,IBM和斯德哥爾摩市開展了一個(gè)項(xiàng)目來優(yōu)化交通流量,它把擁塞程度減少了近四分之一,并把城市中心的空氣質(zhì)量提高了25%。尤為有意思的是,這并沒有必要建立一個(gè)新的精心設(shè)計(jì)的數(shù)據(jù)采集系統(tǒng)。任何一個(gè)在紅綠燈上帶有測(cè)量裝置的城市都已經(jīng)擁有了所有必要的信息,他們?nèi)鄙俚闹皇菑闹屑橙∫饬x的方法。
在另一個(gè)領(lǐng)域,基于目標(biāo)的數(shù)據(jù)產(chǎn)品有著改變生活的力量??▋?nèi)及梅隆大學(xué)(CMU)硅谷分校正進(jìn)行一個(gè)項(xiàng)目以打造數(shù)據(jù)產(chǎn)品去幫助自然或人為災(zāi)害中的急救人員??突仿〈髮W(xué)硅谷分校的Jeannie Stamberger向我們解釋了許多預(yù)測(cè)算法在應(yīng)對(duì)災(zāi)害中的應(yīng)用,從通過對(duì)推特(Twitter)的文本挖掘和情緒分析來確定破壞的程度,到成群的用于偵察和救援的自主機(jī)器人,再到幫助多個(gè)司法管轄區(qū)協(xié)調(diào)他們反應(yīng)的物流優(yōu)化工具。這些災(zāi)難應(yīng)用是很好的例子來說明為什么數(shù)據(jù)產(chǎn)品需要簡(jiǎn)單的、設(shè)計(jì)良好的接口來提出具體的建議。在緊急情況下,一個(gè)只是產(chǎn)生更多的數(shù)據(jù)的數(shù)據(jù)產(chǎn)品是沒有多大用處的??茖W(xué)家們現(xiàn)在有預(yù)測(cè)工具來構(gòu)建產(chǎn)品以給大家?guī)砗锰?,但他們需要意識(shí)到,光建立的模型是不夠的,他們還需要提供出優(yōu)化過的,可以實(shí)現(xiàn)的內(nèi)容作為結(jié)果。
數(shù)據(jù)產(chǎn)品的未來
我們介紹了傳動(dòng)系統(tǒng)的方法以此為設(shè)計(jì)下一代優(yōu)異的數(shù)據(jù)產(chǎn)品提供了一個(gè)框架,并描述了這一方法在核心層面上是如何依賴于優(yōu)化。今后,我們希望看到優(yōu)化出現(xiàn)在商學(xué)院和統(tǒng)計(jì)學(xué)系的教學(xué)中。我們希望看到數(shù)據(jù)科學(xué)家推出的產(chǎn)品在設(shè)計(jì)時(shí)考慮的是用來產(chǎn)生期望的商業(yè)成果的。這仍然只是數(shù)據(jù)科學(xué)的初期階段。我們不知道未來還將發(fā)展出什么樣的設(shè)計(jì)方法,但目前,數(shù)據(jù)科學(xué)界有必要圍繞著一個(gè)共同的詞匯和產(chǎn)品設(shè)計(jì)過程,以此來教育他人如何從他們的預(yù)測(cè)模型中獲得價(jià)值。如果不這樣的話,我們會(huì)發(fā)現(xiàn),我們的模型只用數(shù)據(jù)來創(chuàng)建更多的數(shù)據(jù),而不是使用數(shù)據(jù)來創(chuàng)建行動(dòng),重塑行業(yè),改變生活。
來源:譯言網(wǎng)
作者 :Jeremy Howard , Margit Zwemer?和?Mike Loukides
譯者: fengzhichun
- 目前還沒評(píng)論,等你發(fā)揮!