亚洲另类激情综合偷自拍图,亚洲精品狼友在线播放,黄色网址高清无码在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

傳動(dòng)系統(tǒng)的方法：建立數(shù)據(jù)產(chǎn)品四部曲—設(shè)計(jì)偉大的數(shù)據(jù)產(chǎn)品

青木

2014-02-24

0 評(píng)論 5383 瀏覽 5 收藏

36 分鐘

在過去的幾年中，我們已經(jīng)看到了許多基于建立預(yù)測(cè)模型的數(shù)據(jù)產(chǎn)品。這些產(chǎn)品包括從氣象預(yù)報(bào)到推薦引擎，再到航班起降時(shí)刻預(yù)測(cè)服務(wù)，它的預(yù)測(cè)甚至比航空公司本身更準(zhǔn)確。但是，這些產(chǎn)品還只是進(jìn)行預(yù)測(cè)，而不是告知對(duì)此預(yù)測(cè)結(jié)果該采取怎樣的行動(dòng)。預(yù)測(cè)技術(shù)可以是有趣的，而且具有數(shù)學(xué)上的優(yōu)雅性，但我們需要更進(jìn)一步。這項(xiàng)技術(shù)可以幫助我們建立徹底改變整個(gè)行業(yè)的數(shù)據(jù)產(chǎn)品，有什么理由不去創(chuàng)建呢？
作為介紹這個(gè)過程的開始，我們已經(jīng)改變了保險(xiǎn)業(yè)的四部曲方法。我們把它稱為傳動(dòng)系統(tǒng)方法，靈感源于新興領(lǐng)域的自駕駛車輛。工程師先是定義一個(gè)明確的目標(biāo) ：他們想要汽車在無人干預(yù)地情況下，安全地從A點(diǎn)行駛到B點(diǎn)。成功的預(yù)測(cè)建模是這一解決方案極為重要的部分；但隨著產(chǎn)品復(fù)雜度的提高，它將不再是一個(gè)獨(dú)立的部分，而是融入到產(chǎn)品銜接中了。一些使用谷歌的自動(dòng)駕駛汽車的人并不知道，使它它工作的是其背后上百成千種的數(shù)據(jù)模型和PB級(jí)的數(shù)據(jù)。數(shù)據(jù)科學(xué)家構(gòu)建的產(chǎn)品日益復(fù)雜，他們需要一個(gè)系統(tǒng)的設(shè)計(jì)方法。傳動(dòng)系統(tǒng)方法不一定是最好或唯一的方法；我們的目的是在數(shù)據(jù)科學(xué)和商業(yè)社區(qū)之間建立起對(duì)話，以推動(dòng)我們共同的目標(biāo)。

基于目標(biāo)的數(shù)據(jù)產(chǎn)品

還是算法搜索世界的王者。雖然它們的模型善于尋找具有相關(guān)性的網(wǎng)站，但是用戶最感興趣的結(jié)果往往出現(xiàn)在搜索結(jié)果中的百頁以后，用戶幾乎不可能訪問到。之后，谷歌來了，以一個(gè)簡(jiǎn)單的問題改變的在線搜索：用戶搜索的主要目的是什么？ 傳動(dòng)系統(tǒng)方法的四部曲

谷歌認(rèn)識(shí)到，搜索目的是為了找到最相關(guān)的搜索結(jié)果；對(duì)于其他公司，目的可能是增加利潤(rùn)、改善客戶體驗(yàn)、找到機(jī)器人的最佳路線，或是對(duì)數(shù)據(jù)中心進(jìn)行負(fù)載平衡。一旦我們定義了目標(biāo)之后，第二個(gè)步驟是找出系統(tǒng)中可控的輸入，即那些可以調(diào)整并影響最終的結(jié)果的杠桿因素。對(duì)于谷歌，他們可以控制搜索結(jié)果中的排名。第三步是思考產(chǎn)生這樣的排名需要什么樣新數(shù)據(jù)；他們意識(shí)到，網(wǎng)頁被鏈接到哪些其它網(wǎng)頁這一隱含的信息可以被用于此目的。只有這前三個(gè)步驟后，我們開始思考建立預(yù)測(cè)模型。我們的目標(biāo)、可用的杠桿因素、已有的數(shù)據(jù)加上所需收集的額外數(shù)據(jù)，決定了我們能建立何種模型?？煽馗軛U因素和所有不可控因素都將作為該模型的輸入；模型的所有輸出結(jié)果將被結(jié)合起來預(yù)測(cè)我們目標(biāo)的最終情況。

谷歌所用的傳動(dòng)系統(tǒng)方法中的第四步現(xiàn)在已是高科技?xì)v史的一部分了：拉里·佩奇（Larry Page）和謝爾蓋·布林（Sergey Brin）發(fā)明了圖的遍歷算法PageRank，并由此建立了革命性的搜索引擎。但是，你也不是非得發(fā)明下一個(gè)PageRank才能建立一個(gè)了不起的數(shù)據(jù)產(chǎn)品。我們將介紹一個(gè)系統(tǒng)化的步驟四方法，沒有計(jì)算機(jī)博士學(xué)位也照樣能用。

模型裝配線：最優(yōu)決策祖的案例研究

從合適的預(yù)測(cè)模型優(yōu)化出下一步該如何行動(dòng)，這可能是公司最重要的戰(zhàn)略決策。對(duì)于保險(xiǎn)公司，價(jià)格政策就是他們的產(chǎn)品，所以一個(gè)最優(yōu)的定價(jià)模型之于它們就像是制造裝配生產(chǎn)線之于汽車生產(chǎn)商。保險(xiǎn)業(yè)有幾百年的預(yù)測(cè)經(jīng)驗(yàn)，但在近十年，保險(xiǎn)公司往往對(duì)于每名新客戶該收取多少費(fèi)用無法做出一個(gè)商業(yè)上最優(yōu)的判斷。他們的精算師可以建立模型來預(yù)測(cè)客戶發(fā)生事故的可能性和相關(guān)索賠的預(yù)期值，但是這些模型并不能解決定價(jià)問題，所以保險(xiǎn)公司只能在結(jié)合市場(chǎng)研究的基礎(chǔ)上猜測(cè)一個(gè)定價(jià)。這種情況在1999年因?yàn)橐患颐麨樽顑?yōu)決策小組而得到了改變。

作為傳動(dòng)系統(tǒng)方法的一個(gè)早期運(yùn)用，ODG實(shí)踐了其中的步驟四——它可以應(yīng)用于很多廣泛的問題。首先，他們定義了保險(xiǎn)公司的目標(biāo) ：最大化新顧客在一段年限內(nèi)的利潤(rùn)凈現(xiàn)值，但同時(shí)又要考慮到一些其它因素，例如保持市場(chǎng)份額。就這樣，他們發(fā)展出一個(gè)優(yōu)化的定價(jià)過程，為保險(xiǎn)公司增加了數(shù)百萬美元的保底利潤(rùn)。[ 注：本文的共同作者杰里米·霍華德（Jeremy Howard）創(chuàng)辦了ODG。
ODG確定的那些保險(xiǎn)公司的可控杠桿因素：向每個(gè)客戶收取的價(jià)格，覆蓋的事故類型，在市場(chǎng)營(yíng)銷和客戶服務(wù)上花的花費(fèi)，以及如何應(yīng)對(duì)其競(jìng)爭(zhēng)對(duì)手的定價(jià)方案。他們也考慮了不可控因素：如競(jìng)爭(zhēng)對(duì)手的戰(zhàn)略、宏觀經(jīng)濟(jì)的情況、自然災(zāi)害以及客戶的“粘性”。他們還考慮了需要什么樣的額外的數(shù)據(jù)來預(yù)測(cè)客戶對(duì)于價(jià)格變動(dòng)的反應(yīng)。為了建立這些數(shù)據(jù)集，這就有必要持續(xù)幾個(gè)月地隨機(jī)改變成百上千條定價(jià)策略。雖然保險(xiǎn)公司不愿在這些真實(shí)客戶身上做實(shí)驗(yàn)，因?yàn)樗麄冿@然會(huì)因此失去一些客戶；但在優(yōu)化定價(jià)政策可能帶來的巨大收益面前，他們還是動(dòng)搖了。最終，ODG開始設(shè)計(jì)能夠最大化保險(xiǎn)公司利潤(rùn)的模型。

傳動(dòng)系統(tǒng)方法第四步：模型裝配生產(chǎn)線。圖形化的數(shù)據(jù)產(chǎn)品的模型裝配生產(chǎn)線，可將原始數(shù)據(jù)轉(zhuǎn)化為下一步的行動(dòng)。這個(gè)建模器將原始數(shù)據(jù)轉(zhuǎn)換成稍加提煉的預(yù)測(cè)數(shù)據(jù)。
ODG建模器中的第一個(gè)組件是一個(gè)關(guān)于新保單和續(xù)單的價(jià)格彈性模型（用戶接受一個(gè)給定價(jià)格的概率）。價(jià)格彈性模型反映的是用戶接受保單的概率和保單價(jià)格之間的關(guān)系。這條曲線從低價(jià)時(shí)的幾乎肯定接受一直到高價(jià)時(shí)的幾乎不可能接受。

ODG建模器第二個(gè)組件在考慮能夠接受保單價(jià)格的客戶的情況下，把保險(xiǎn)公司的利潤(rùn)和產(chǎn)品價(jià)格進(jìn)行關(guān)聯(lián)。極低價(jià)格下的利潤(rùn)在考慮第一年的預(yù)期索賠加上獲取及維護(hù)新客戶的開銷后被計(jì)算出，并被顯示為紅色。這兩條曲線相乘將得到一個(gè)最終的曲線，顯示了價(jià)格與預(yù)期收益的對(duì)應(yīng)關(guān)系（見下方的預(yù)期利潤(rùn)圖）。最后的曲線有一個(gè)清晰可辨的局部最大值，表明了第一年應(yīng)當(dāng)給于用戶的最佳價(jià)格。

預(yù)期利潤(rùn)

ODG還建立了客戶忠誠(chéng)度的模型。這些模型在考慮價(jià)格變化和客戶轉(zhuǎn)投競(jìng)爭(zhēng)對(duì)手公司的意愿的情況下，預(yù)測(cè)客戶是否會(huì)在一年內(nèi)續(xù)保。這些額外的模型結(jié)合年度模型將能夠預(yù)測(cè)未來五年內(nèi)一個(gè)新用戶所能帶來的利潤(rùn)。
這套新的模型仍不是一個(gè)最終答案，因?yàn)樗荒艽_定一個(gè)給定輸入的結(jié)果。“裝配生產(chǎn)線“上下一個(gè)”機(jī)器“是一個(gè)模擬器，通過它，ODG可以問“假如……會(huì)怎樣”的問題，來觀察杠桿因素是如何影響最終結(jié)果的分布的。把可能出現(xiàn)的結(jié)果作為一個(gè)曲面，預(yù)期利潤(rùn)曲線僅僅是這個(gè)曲面的一個(gè)切片。要建立整個(gè)曲面，模擬器需要在模型上運(yùn)行大范圍的輸入。操作員可以調(diào)整輸入的杠桿因素桿來回答一些特定的問題，比如“如果公司在第一年為客戶提供一個(gè)誘惑性的低價(jià)，然后在第二年提高價(jià)格，將會(huì)有何結(jié)果？”他們也可以探尋那些對(duì)于保險(xiǎn)公司來說的不可控因素是如何影響利潤(rùn)的分布的：“如果經(jīng)濟(jì)崩潰并且客戶失去了他的工作，那會(huì)怎樣？如果他的家遭遇了百年一遇的洪水又如何？如果一個(gè)新競(jìng)爭(zhēng)者進(jìn)入市場(chǎng)，我們公司又不加應(yīng)對(duì)，會(huì)對(duì)我們的底線造成怎樣的影響？“由于模擬是在每一個(gè)政策層面的，保險(xiǎn)商可以看到一組給定的價(jià)格變動(dòng)對(duì)收入，市場(chǎng)份額，隨著時(shí)間的推移和其他指標(biāo)的影響。
模擬器的結(jié)果將被導(dǎo)入優(yōu)化器，它將確定出代表了所有可能結(jié)果的曲面中的最高點(diǎn)。優(yōu)化器不僅找最好結(jié)果，它也可以識(shí)別那些災(zāi)難性的后果，并告知如何避免它們。我們已有很多不同的優(yōu)化技術(shù)可供選擇（ 見下面的邊欄 ），這是一個(gè)為人所熟知的領(lǐng)域，已有了強(qiáng)健和易用的解決方案。雖然ODG的競(jìng)爭(zhēng)對(duì)手在找最佳的價(jià)格上所用的技術(shù)有所不同，但他們推出的同樣是一個(gè)具有全局性的數(shù)據(jù)產(chǎn)品。使用動(dòng)力傳動(dòng)系統(tǒng)模型和模型裝配線相結(jié)合的重要價(jià)值在于，這樣就可以在預(yù)測(cè)模型和可采取的行動(dòng)項(xiàng)之間架起了一座橋梁。 CloudPhysics公司的伊爾凡·艾哈邁德（Irfan Ahmed ）對(duì)預(yù)測(cè)模型進(jìn)行了良好的分類，并且描述了整個(gè)裝配線過程：
“在需要處理成敗上千個(gè)組件模型以了解整個(gè)系統(tǒng)的行為的時(shí)候，‘搜索’的運(yùn)用是必需的。我把它看成是一個(gè)用來揭開帷幕的復(fù)雜的機(jī)器（整個(gè)系統(tǒng)）通過受控的實(shí)驗(yàn)，我們對(duì)這個(gè)機(jī)器的每個(gè)重要部分建模，然后模擬的它們之間的相互作用。注意這里的不同層次：各個(gè)組件的獨(dú)立模型；在一個(gè)給定的一組輸入的模擬器重相互捆綁在一起；通過搜索優(yōu)化器在不同的輸入集合上進(jìn)行優(yōu)化迭代。”

邊欄：現(xiàn)實(shí)世界中的優(yōu)化

優(yōu)化是一個(gè)經(jīng)典的問題，從牛頓和高斯開始直至現(xiàn)今的數(shù)學(xué)家和工程師們都在對(duì)此進(jìn)行研究。許多優(yōu)化過程是迭代的，這就像是先走一小步，查看我們的高度，然后再向上一小步，直到我們達(dá)到一個(gè)無論向哪個(gè)方向都無法爬上更高的點(diǎn)。這一爬山方法的危險(xiǎn)之處在于，如果步子太小了，我們可能會(huì)逗留在山腳下的局部最大值中，這就無法找到可控輸入中的最佳集合。已有很多技術(shù)用以避免這個(gè)問題，一些是基于統(tǒng)計(jì)學(xué)并且把對(duì)最佳結(jié)果的猜測(cè)范圍撒得更廣；還有一些是基于自然界中見到系統(tǒng)，像是生物進(jìn)化或玻璃中的原子冷卻過程。

優(yōu)化是一個(gè)我們?cè)谌粘Ｉ钪卸己苁煜さ倪^程，即使我們從來沒有使用過類如梯度下降法或是模擬退火的優(yōu)化算法。一個(gè)最近的TechZing播客提供了一個(gè)現(xiàn)實(shí)世界中優(yōu)化的非常好的寫照，這篇播客來自于數(shù)據(jù)挖掘的競(jìng)賽平臺(tái)Kaggle的共同創(chuàng)辦人。本文的作者之一解釋了一種迭代優(yōu)化技術(shù)，然后主持人說到，“因此，在一定意義上杰里米（Jeremy），你的方法就像是在做一個(gè)創(chuàng)業(yè)公司——先做一些東西出來，然后反復(fù)地迭代，迭代，再迭代?！币痪湓?，不管你是一個(gè)小型創(chuàng)業(yè)公司或者是一家保險(xiǎn)巨頭，當(dāng)我們要決定如何去我們想去的地方的時(shí)候，我們都在不自覺地使用優(yōu)化。

優(yōu)化顧客終身價(jià)值

相同的系統(tǒng)方法可以被用來優(yōu)化整個(gè)營(yíng)銷策略。這可以包括零售商在實(shí)際買賣交易之外和其客戶的所有互動(dòng)：是否做產(chǎn)品推薦，鼓勵(lì)客戶了解網(wǎng)上商店的一個(gè)新功能，或是發(fā)送促銷活動(dòng)信息。選擇錯(cuò)誤的代價(jià)對(duì)于零售商意味著利潤(rùn)減少（打折銷售并沒有帶動(dòng)額外的營(yíng)業(yè)額），損失機(jī)會(huì)成本，（例如主頁上的稀缺性房地產(chǎn)信息，以及推薦欄位被一些用戶不喜歡或者即使沒有推薦也仍然會(huì)購(gòu)買的東西所占據(jù)），或是導(dǎo)致客戶的流失（發(fā)送了過多無用的電子郵件促銷，導(dǎo)致客戶把所有將來的郵件過濾成了垃圾郵件）。我們將告訴你如何去建立一個(gè)優(yōu)化的營(yíng)銷策略，來減輕這些影響。
在之前的每個(gè)例子中，我們都首先問一個(gè)問題：“什么是營(yíng)銷策略試圖達(dá)到的目標(biāo)？”答案很簡(jiǎn)單：我們希望優(yōu)化每個(gè)客戶的終身價(jià)值。第二個(gè)問題：“有什么杠桿因素是我們可以加以利用去實(shí)現(xiàn)這一目標(biāo)的？”有不少，例如例如：

我們可以使產(chǎn)品推薦是令人感到驚訝和愉悅的（使用上一節(jié)中列出的優(yōu)化建議）。
我們可以針對(duì)顧客并沒完全準(zhǔn)備購(gòu)買或是會(huì)去其他商家購(gòu)買的產(chǎn)品提供量身定制的折扣或特殊的優(yōu)惠，
我們甚至可以同過客戶關(guān)懷電話，關(guān)心用戶有多喜歡我們的網(wǎng)站，讓他們覺得他們的意見是有價(jià)值的。

我們需要收集怎樣的新數(shù)據(jù)？不同情況的答案各不相同，在這一步，一些網(wǎng)上零售商正采取創(chuàng)造性的方法。在線時(shí)尚零售商的Zafu展示了如何鼓勵(lì)客戶參與這個(gè)收集過程。賣名牌牛仔布的網(wǎng)站很多，但對(duì)于很多女性來說，高檔牛仔褲的服裝是她們從來沒有在網(wǎng)上買過的，因?yàn)椴辉嚧┑脑掚y找到合適的。Zafu的做法是不讓客戶直接去看衣服，而是用一些簡(jiǎn)單的問題作為開始，通過詢問客戶的身型，以及其他牛仔褲的合身情況，和他們的時(shí)尚偏好。這些之后，客戶才開始瀏覽Zafu從庫(kù)存挑選出的推薦。數(shù)據(jù)收集和推薦不再是一個(gè)附加功能，他們已經(jīng)是Zafu的整個(gè)商業(yè)模式 —— 女式牛仔褲既是數(shù)據(jù)產(chǎn)品。Zafu可以把他們的推薦調(diào)整得就像是他們的牛仔褲一樣的合身，因?yàn)樗麄兊南到y(tǒng)問了正確的問題。
以目標(biāo)作為開始迫使數(shù)據(jù)科學(xué)家們開始考慮他們需要為建模器建立哪些額外的模型。我們可以保留我們已有的“相似”模型，以及針對(duì)有推薦和沒有推薦情況下的因果關(guān)系模型，然后采取分階段的方式來增加我們認(rèn)為將改善的營(yíng)銷效果的額外的模型。我們可以添加一個(gè)價(jià)格彈性模型來測(cè)試提供折扣將如何影響用戶購(gòu)買商品的概率。我們可以對(duì)于客戶對(duì)針對(duì)性差勁的定向廣告的忍耐力構(gòu)造一個(gè)耐性模型：他們什么時(shí)候做出調(diào)整把我們信息直接過濾成垃圾郵件？（“如果Hulu再給我看一次這個(gè)狗糧廣告，我就走人了！”）一種購(gòu)買順序因果關(guān)系模型可以用來識(shí)別關(guān)鍵的“引入性產(chǎn)品”。例如，一個(gè)條牛仔褲往往會(huì)和某件上衣搭配著買，或是某系列小說的第一部分往往會(huì)導(dǎo)致之后這一系列的整套出售。

有了這些模型后，我們就可以構(gòu)建了一個(gè)模擬器和優(yōu)化器，在上面運(yùn)行組合起來的模型，以找出什么推薦將實(shí)現(xiàn)我們的目標(biāo)：推動(dòng)銷售和改進(jìn)客戶體驗(yàn)。

建模器的構(gòu)造

數(shù)據(jù)產(chǎn)品的最佳實(shí)踐

人們很容易陷入這樣的思維誤區(qū)：因?yàn)閿?shù)據(jù)往往存儲(chǔ)在一些抽象的地方，比如在一個(gè)電子表格中或在云端的數(shù)據(jù)中，因此數(shù)據(jù)產(chǎn)品也就是一些抽象的算法。為此，我們希望向你展示基于目標(biāo)的數(shù)據(jù)產(chǎn)品是如何已經(jīng)成為這個(gè)有形的世界的一部分的。這些例子最重要的地方是，設(shè)計(jì)這些數(shù)據(jù)產(chǎn)品的工程師并不是一開始打造出一個(gè)華麗麗的機(jī)器人，然后再看看能用它做些什么。他們開始以這樣的目標(biāo)：“我想要我的車帶我去不同的地方”，然后設(shè)計(jì)了一個(gè)鮮為人知數(shù)據(jù)產(chǎn)品來完成這一任務(wù)。工程師們經(jīng)常悄悄地在算法應(yīng)用上非常地領(lǐng)先，因?yàn)樗麄兂志玫匾恢痹谝曰谀繕?biāo)的方法思考自己的建模中的種種挑戰(zhàn)。首先開始使用神經(jīng)網(wǎng)絡(luò)的就是專業(yè)工程師們，把它們應(yīng)用到例如裝配生產(chǎn)線的優(yōu)化設(shè)計(jì)和質(zhì)量控制上。布賴恩·里普利（Brian Ripley’s）的有關(guān)模式識(shí)別的開創(chuàng)性著作為很多從20世紀(jì)70年代幾乎被人遺忘的工程文件贏得了應(yīng)有的贊譽(yù)，它們包含了許多想法和技術(shù)。
當(dāng)設(shè)計(jì)一個(gè)產(chǎn)品或生產(chǎn)過程中，動(dòng)力傳動(dòng)系統(tǒng)模型的集成，模擬和優(yōu)化的過程，是系統(tǒng)工程師工具包中一個(gè)很熟悉的部分。在工程中通常需要把許多的組件模型連接在一起，以便可以對(duì)它們一起進(jìn)行模擬、優(yōu)化。這些企業(yè)有充足的經(jīng)驗(yàn)，為其最終產(chǎn)品的每一個(gè)部件和系統(tǒng)建造模型，無論他們要造的是一個(gè)服務(wù)器群或是噴氣式戰(zhàn)斗機(jī)。我們可能會(huì)有一個(gè)機(jī)械系統(tǒng)的詳細(xì)模型，一個(gè)單獨(dú)有關(guān)熱系統(tǒng)的一個(gè)單獨(dú)的模型，還有一個(gè)是為電氣系統(tǒng)設(shè)計(jì)的模型，等等。所有這些系統(tǒng)都相互有著至關(guān)重要的作用。例如，在電氣系統(tǒng)的電阻產(chǎn)生的熱量會(huì)作為一部分輸入導(dǎo)入熱擴(kuò)散和冷卻模型。這多余的熱量會(huì)造成機(jī)械部件的變形，產(chǎn)生需要輸入機(jī)械模型的壓力。

下面的截圖是從由鳳凰集成設(shè)計(jì)的模型集成工具中截取的。雖然這張圖來自于一個(gè)完全不同的工程學(xué)科，但是卻和我們推薦的用來建立數(shù)據(jù)產(chǎn)品的傳動(dòng)系統(tǒng)方法非常相似。目標(biāo)很清晰：建立一個(gè)飛機(jī)機(jī)翼。j翼盒的設(shè)計(jì)包括諸如跨度，錐度比和掠度這些杠桿因素。數(shù)據(jù)存在于機(jī)翼材料的物理屬性之中；成本被列在了應(yīng)用程序的另一個(gè)選項(xiàng)卡中。此外還有一個(gè)關(guān)于空氣動(dòng)力學(xué)性能和機(jī)械結(jié)構(gòu)的建模器，它可以被輸入到一個(gè)模擬器來產(chǎn)生關(guān)鍵翼的輸出，包括成本，重量，升力系數(shù)和誘導(dǎo)阻力。這些結(jié)果可以用來輸入到一個(gè)優(yōu)化器以建造一個(gè)既能正常運(yùn)作且成本也很劃算的機(jī)翼。

鳳凰集成設(shè)計(jì)的模型集成工具的截圖

預(yù)測(cè)性建模和優(yōu)化在廣泛的活動(dòng)中變得越來越至關(guān)重要，讓我們拭目以待那些能夠擾亂行業(yè)的工程師們，雖然這并不會(huì)立即出現(xiàn)在數(shù)據(jù)業(yè)務(wù)中?！皠?dòng)力傳動(dòng)系統(tǒng)方法”的靈感，已經(jīng)在山景城（Mountain View）的路上了，就是很好的例子。不再是以數(shù)據(jù)驅(qū)動(dòng)的，我們現(xiàn)在可以讓數(shù)據(jù)驅(qū)動(dòng)我們。

設(shè)想我們想從舊金山去圣克拉拉（Santa Clara）參加2012年的Strata會(huì)議。就此，我們即可建立一個(gè)有關(guān)距離/限速的簡(jiǎn)單模型來預(yù)測(cè)到達(dá)時(shí)間，是需要一把尺和路線地圖就可以做了。如果我們希望有一個(gè)更精致的系統(tǒng)，我們可以再建一個(gè)交通擠塞情況的模型，然后再來一個(gè)預(yù)測(cè)天氣情況以及天氣對(duì)最大安全行駛速度影響的模型。建立這些模型的過程中，你會(huì)遇到很多很酷的挑戰(zhàn)，但僅靠它們還不能帶我們到目的地。如今，用一些啟發(fā)式的搜索算法來預(yù)測(cè)不同路線的駕駛時(shí)間是件微不足道的事（模擬器），然后可以在考慮例如“避免過橋費(fèi)”或者“最大化汽油的效用”等限制因素下選擇最短的一個(gè)路徑（優(yōu)化器。但是，為什么不想得更大一些？不再只是GPS裝置的女機(jī)器人聲音告訴我們?cè)撟吣臈l路線，該在哪里轉(zhuǎn)彎，如何能造出一輛自己就會(huì)做這些決定的汽車？為什么不把用一個(gè)物理引擎把仿真和優(yōu)化引擎捆綁在一起，統(tǒng)統(tǒng)放入汽車的黑盒子里？

讓我們想想這又是傳動(dòng)系統(tǒng)方法的一個(gè)怎樣的應(yīng)用。我們已經(jīng)定義了我們的目標(biāo) ：建立一輛能夠自行駕駛的汽車。杠桿因素是我們都很熟悉的車輛的控制部件：方向盤，油門，剎車等。接下來，我們考慮汽車需要收集什么樣的數(shù)據(jù)；它需要的傳感器來收集道路數(shù)據(jù)，還需要攝像頭來檢測(cè)道路標(biāo)志、紅燈或者綠燈，以及意想不到的障礙（包括行人）。我們需要定義我們會(huì)用到的模型，例如預(yù)測(cè)轉(zhuǎn)向、剎車和加速相應(yīng)影響的物理模型，以及模式識(shí)別算法來把路標(biāo)轉(zhuǎn)換成數(shù)據(jù) 。

正如谷歌自動(dòng)駕駛汽車項(xiàng)目的一名工程師在最近的一篇《連線》雜志的文章中寫到，”我們每秒鐘要分析和預(yù)測(cè)世界20次?！边@句話中沒有提到的恰恰是這次預(yù)測(cè)產(chǎn)生的結(jié)果。汽車需要使用一個(gè)模擬器來檢查它各種可選的行動(dòng)都會(huì)導(dǎo)致怎樣的結(jié)果。如果它現(xiàn)在左轉(zhuǎn)，會(huì)不會(huì)撞到行人呢？如果在這種天氣條件下以55英里每小時(shí)的速度右轉(zhuǎn)，會(huì)不會(huì)打滑呢？?jī)H僅預(yù)測(cè)會(huì)發(fā)生什么還不夠好。自行駕駛的汽車需要更進(jìn)一步：在模擬了所有的可能性后，必須優(yōu)化模擬結(jié)果，挑選出加速、剎車、轉(zhuǎn)向以及信號(hào)燈的最佳組合，從而讓我們安全地抵達(dá)圣克拉拉。預(yù)測(cè)只告訴我們將要發(fā)生事故。優(yōu)化器會(huì)告訴我們?nèi)绾伪苊馐鹿拾l(fā)生。

改善的數(shù)據(jù)收集和預(yù)測(cè)模型是非常重要的，但我們要強(qiáng)調(diào)以定義一個(gè)清晰的目標(biāo)作為開始的重要性，而且目標(biāo)要配以能夠產(chǎn)生行動(dòng)項(xiàng)的杠桿因素。數(shù)據(jù)科學(xué)已經(jīng)開始遍及我們生活中的方方面面。由于科學(xué)家和工程師變得更善于預(yù)測(cè)和優(yōu)化日常問題，他們正在擴(kuò)大可能性，去優(yōu)化從我們個(gè)人的健康到我們所處的房子和城市的每一樣?xùn)|西。用來模擬流體動(dòng)力和湍流的模型被用于改善交通和行人流量，其中的杠桿因素就是出口的設(shè)置位置以及控制人群的障礙物。這改善了地鐵站的緊急疏散程序，并降低了在有體育賽事期間發(fā)生人群踩踏的危險(xiǎn)。Nest公司正在設(shè)計(jì)智能溫控器，它能夠?qū)W習(xí)房子主人對(duì)溫度偏好，然后優(yōu)化能源消耗。對(duì)于汽車交通，IBM和斯德哥爾摩市開展了一個(gè)項(xiàng)目來優(yōu)化交通流量，它把擁塞程度減少了近四分之一，并把城市中心的空氣質(zhì)量提高了25％。尤為有意思的是，這并沒有必要建立一個(gè)新的精心設(shè)計(jì)的數(shù)據(jù)采集系統(tǒng)。任何一個(gè)在紅綠燈上帶有測(cè)量裝置的城市都已經(jīng)擁有了所有必要的信息，他們?nèi)鄙俚闹皇菑闹屑橙∫饬x的方法。

在另一個(gè)領(lǐng)域，基于目標(biāo)的數(shù)據(jù)產(chǎn)品有著改變生活的力量?？▋?nèi)及梅隆大學(xué)（CMU）硅谷分校正進(jìn)行一個(gè)項(xiàng)目以打造數(shù)據(jù)產(chǎn)品去幫助自然或人為災(zāi)害中的急救人員?？突仿〈髮W(xué)硅谷分校的Jeannie Stamberger向我們解釋了許多預(yù)測(cè)算法在應(yīng)對(duì)災(zāi)害中的應(yīng)用，從通過對(duì)推特（Twitter）的文本挖掘和情緒分析來確定破壞的程度，到成群的用于偵察和救援的自主機(jī)器人，再到幫助多個(gè)司法管轄區(qū)協(xié)調(diào)他們反應(yīng)的物流優(yōu)化工具。這些災(zāi)難應(yīng)用是很好的例子來說明為什么數(shù)據(jù)產(chǎn)品需要簡(jiǎn)單的、設(shè)計(jì)良好的接口來提出具體的建議。在緊急情況下，一個(gè)只是產(chǎn)生更多的數(shù)據(jù)的數(shù)據(jù)產(chǎn)品是沒有多大用處的?？茖W(xué)家們現(xiàn)在有預(yù)測(cè)工具來構(gòu)建產(chǎn)品以給大家?guī)砗锰?，但他們需要意識(shí)到，光建立的模型是不夠的，他們還需要提供出優(yōu)化過的，可以實(shí)現(xiàn)的內(nèi)容作為結(jié)果。

數(shù)據(jù)產(chǎn)品的未來

我們介紹了傳動(dòng)系統(tǒng)的方法以此為設(shè)計(jì)下一代優(yōu)異的數(shù)據(jù)產(chǎn)品提供了一個(gè)框架，并描述了這一方法在核心層面上是如何依賴于優(yōu)化。今后，我們希望看到優(yōu)化出現(xiàn)在商學(xué)院和統(tǒng)計(jì)學(xué)系的教學(xué)中。我們希望看到數(shù)據(jù)科學(xué)家推出的產(chǎn)品在設(shè)計(jì)時(shí)考慮的是用來產(chǎn)生期望的商業(yè)成果的。這仍然只是數(shù)據(jù)科學(xué)的初期階段。我們不知道未來還將發(fā)展出什么樣的設(shè)計(jì)方法，但目前，數(shù)據(jù)科學(xué)界有必要圍繞著一個(gè)共同的詞匯和產(chǎn)品設(shè)計(jì)過程，以此來教育他人如何從他們的預(yù)測(cè)模型中獲得價(jià)值。如果不這樣的話，我們會(huì)發(fā)現(xiàn)，我們的模型只用數(shù)據(jù)來創(chuàng)建更多的數(shù)據(jù)，而不是使用數(shù)據(jù)來創(chuàng)建行動(dòng)，重塑行業(yè)，改變生活。

來源：譯言網(wǎng)

作者：Jeremy Howard , Margit Zwemer?和?Mike Loukides
譯者： fengzhichun