《長(zhǎng)安十二時(shí)辰》大案牘術(shù),并非“穿越版”的大數(shù)據(jù)!
如果你有關(guān)注《長(zhǎng)安十二時(shí)辰》,那你一定會(huì)知道“大案牘術(shù)”。不過(guò),你知道“大案牘術(shù)”和我們常提到的大數(shù)據(jù)有什么區(qū)別嗎?
現(xiàn)在《長(zhǎng)安十二時(shí)辰》正在優(yōu)酷熱播,發(fā)現(xiàn)這個(gè)連續(xù)劇跟大數(shù)據(jù)還有點(diǎn)關(guān)系,好多文章就以大數(shù)據(jù)為題進(jìn)行了詮釋,比如《<長(zhǎng)安十二時(shí)辰>中的IT技術(shù)》、《<長(zhǎng)安十二時(shí)辰>,穿越版的大數(shù)據(jù)泄露事件》、《劉雨欣:唐代查案用“大數(shù)據(jù)”,<長(zhǎng)安十二時(shí)辰>里的大案牘術(shù)可行嗎?》等等,而且不止一次提到了一個(gè)概念——大案牘術(shù)。
那么“大案牘術(shù)”是什么呢?
答案很簡(jiǎn)單,就是我們天天掛在嘴邊的“大數(shù)據(jù)”,劇中靖安司徐賓的“大案牘術(shù)”其實(shí)就是以超強(qiáng)記憶力對(duì)長(zhǎng)安各部門辦事文書(shū)進(jìn)行記憶、歸納、整理,形成“大唐數(shù)據(jù)庫(kù)”,進(jìn)而形成預(yù)判和解決方案。無(wú)論是破案調(diào)查找人,甚至預(yù)言未來(lái)。
案牘是中國(guó)古時(shí)候官府的公文案卷,大案牘更是凸顯重要的國(guó)家紀(jì)要,術(shù)則是代表方法能力??氨犬?dāng)今的大數(shù)據(jù)分析應(yīng)用能力。
開(kāi)篇?jiǎng)≈幸籽笄Лt扮演的李必犧牲了一名暗樁崔六郎,又從大牢中提出死囚張小敬,為解決此次長(zhǎng)安大劫,答應(yīng)如果能破獲此案,便免去他的死罪,兩人都是“大案牘術(shù)”選出的最佳人選。
怎么選的?
在龐大的數(shù)據(jù)庫(kù)中,添加目標(biāo)的行為與特征等標(biāo)簽,分析出其喜好與習(xí)慣。“熟知當(dāng)?shù)睾诎椎酪?guī)矩”,三教九流皆有交集”,多種語(yǔ)言能力,“且有好勝心、有牽掛”、不想死”。這不就是大數(shù)據(jù)標(biāo)簽體系嗎?
現(xiàn)代意義上的大數(shù)據(jù),跟連續(xù)劇里的大數(shù)據(jù)有密切的聯(lián)系,比如都需要基于收集的數(shù)據(jù)進(jìn)行客戶的洞察和未來(lái)的預(yù)測(cè),但無(wú)論是從采集的數(shù)據(jù)規(guī)模、實(shí)現(xiàn)分析的方法、使用的算法及使用的工具上都具有天壤之別,這些往往決定了現(xiàn)代大數(shù)據(jù)的本質(zhì)。
筆者就用類比的方式,講講這部劇里的唐代原始大數(shù)據(jù)與現(xiàn)代大數(shù)據(jù)的區(qū)別,畢竟有比較就有鑒別,看看熱文牽強(qiáng)附會(huì)大數(shù)據(jù)一把無(wú)可非議,但如果能借此機(jī)會(huì)學(xué)習(xí)下什么才是現(xiàn)代意義上的大數(shù)據(jù),可能更有意義。
一、什么是大數(shù)據(jù)
1. 現(xiàn)代大數(shù)據(jù)
指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
2. 唐代大數(shù)據(jù)
以檔案登記為基礎(chǔ),無(wú)論是百姓家添丁新喪、婚配嫁娶之事,還是各個(gè)衙門機(jī)構(gòu)間的人員往來(lái)和調(diào)動(dòng),甚至連錢糧貨物流水,都會(huì)由錄入吏進(jìn)行登記。
兩者的區(qū)別就在于現(xiàn)代意義上的大數(shù)據(jù),更多依靠的是海量的機(jī)器和傳感器無(wú)時(shí)不刻的自動(dòng)記錄數(shù)據(jù),而唐代大數(shù)據(jù)僅靠官吏進(jìn)行手工錄入,其不僅受限于人員數(shù)量,而且受限于有限的時(shí)間,這決定了其數(shù)據(jù)量的上限。
二、大數(shù)據(jù)的特點(diǎn)
1. 現(xiàn)代大數(shù)據(jù)
一般講有4個(gè)特點(diǎn)。
一是數(shù)據(jù)體量巨大。
比如百度資料表明,其新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過(guò)1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙。
二是數(shù)據(jù)類型多樣。
現(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。
三是處理速度快。
數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。比如在用戶瀏覽購(gòu)物的時(shí)候進(jìn)行商品的個(gè)性化實(shí)時(shí)推薦。
四是價(jià)值密度低。
以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
2. 唐代大數(shù)據(jù)
完全走向了反面。
一是數(shù)據(jù)體量極其有限。
有資料證實(shí),到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量?jī)H為200PB,唐代作為全世界一個(gè)國(guó)家中的一個(gè)朝代一個(gè)時(shí)期能記錄的數(shù)據(jù)量更是微乎其微。
二是數(shù)據(jù)類型非常單一。
大案牘術(shù)僅僅以檔案登記為基礎(chǔ),也就類似于現(xiàn)代的戶口登記數(shù)據(jù)。
三是處理速度很慢。
你看靖安司那么多人忙這忙那,因?yàn)榫碜诘教幎际?,需要某個(gè)數(shù)據(jù)得靠人工一個(gè)個(gè)去找,要推理某個(gè)事情,還要靠人員超級(jí)的記憶力和邏輯推斷力,脫口而出的數(shù)字雖然代表敬業(yè),但顯然跟現(xiàn)代的機(jī)器處理速度不可同日而語(yǔ)。
四是價(jià)值密度相對(duì)高。
由于處理能力有限,靖安司只能記錄最重要的數(shù)據(jù),戶口登記數(shù)據(jù)即使在現(xiàn)代也是重要的數(shù)據(jù)類型之一,因此唐代大數(shù)據(jù)的價(jià)值密度肯定是很高的,否則就沒(méi)有斷案的可能了。
三、大數(shù)據(jù)的分析
大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。
1. 現(xiàn)代大數(shù)據(jù)
大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,因此不大可能靠人去直接面對(duì)大數(shù)據(jù)進(jìn)行分析,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。
先說(shuō)說(shuō)可視化分析。
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時(shí)還有普通用戶,但是他們二者對(duì)于大數(shù)據(jù)分析最基本的一個(gè)要求就是可視化分析,因?yàn)榭梢暬治瞿軌蛑庇^的呈現(xiàn)大數(shù)據(jù)特點(diǎn),非常容易被讀者所接受,就如同看圖說(shuō)話一樣簡(jiǎn)單明了,就是你平時(shí)接觸的PPT軟件,也可看成一種可視化分析軟件,更別提專業(yè)的商業(yè)智能(BI)軟件了。
再說(shuō)說(shuō)算法。
大數(shù)據(jù)分析極度依賴數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家所公認(rèn)的各種統(tǒng)計(jì)方法才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價(jià)值,包括貝葉斯,SVM,回歸,決策樹(shù),神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)等等。
比如阿爾法狗基于深度學(xué)習(xí)算法來(lái)實(shí)現(xiàn)價(jià)值網(wǎng)絡(luò)(value network),可以預(yù)測(cè)棋盤上不同的分布會(huì)帶來(lái)什么不同的結(jié)果,因此,現(xiàn)在機(jī)器在圍棋上戰(zhàn)勝人類已經(jīng)不是事了。
2. 唐代大數(shù)據(jù)
《長(zhǎng)安十二時(shí)辰》大案牘術(shù)這么描述辦案分析方法:
“等到辦案時(shí),靖安司只需調(diào)閱相關(guān)卷宗進(jìn)行預(yù)判和推測(cè),便可以從數(shù)據(jù)與信息間發(fā)現(xiàn)諸多關(guān)聯(lián),進(jìn)而找到破案的線索“,這里提到的預(yù)判、推測(cè)、關(guān)聯(lián)都是靠人,徐賓似乎成了分析之神。
但徐賓在分析上其實(shí)是個(gè)光桿司令,沒(méi)啥輔助工具。
唐代既沒(méi)有電腦,更不可能有可視化軟件,徐賓的分析推測(cè)首先要讓李必理解聽(tīng)懂,但人對(duì)于聽(tīng)的接受能力遠(yuǎn)沒(méi)有看強(qiáng),而同樣是看,人對(duì)于圖像的理解力比文字好太多了。
徐賓缺乏很好的洞察數(shù)據(jù)的手段和解釋數(shù)據(jù)的方法,因此如果要用圖形示意,估計(jì)就只能這么靠手工畫吧,效率之低可想而知。
徐賓不可能用到現(xiàn)代的算法,做預(yù)測(cè)或判斷靠的只能是自己的邏輯推理能力,但里面的可疑人物之所以能被推理出來(lái)是因?yàn)樾熨e面臨的只是小數(shù)據(jù),涉及的要素不夠多,關(guān)系不夠復(fù)雜而已。
人對(duì)于二三維變量的關(guān)系還是能做些判斷,但一旦數(shù)據(jù)維度非常多,比如要你基于十維的數(shù)據(jù)找相互之間的關(guān)系,人的腦子估計(jì)就不夠用了,這個(gè)時(shí)候就要靠機(jī)器算法。
比如Palantir是美國(guó)著名的獨(dú)角獸反恐公司,Palantir的主要牛逼之處是在于可以多維度將不同來(lái)源的數(shù)據(jù)進(jìn)行關(guān)聯(lián),特別是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)分析。
比如郵件、社交網(wǎng)絡(luò)信息、網(wǎng)絡(luò)日志信息,從而挖掘和展現(xiàn)出未知的相關(guān)關(guān)系,為決策提供依據(jù)。
唐代第一圍棋國(guó)手王積薪在那個(gè)時(shí)候可是所向披靡,但如果穿越到現(xiàn)代跟柯潔下,不知道要被讓多少個(gè)子,而柯杰對(duì)阿爾法狗的勝率可是0,具有強(qiáng)大算法能力的阿爾法狗在圍棋界是神一樣的存在。
當(dāng)然,現(xiàn)代大數(shù)據(jù)和人工智能算法目前的“通識(shí)”能力還是有限的,其對(duì)于環(huán)境的復(fù)雜性非常敏感,只能專一的做某件事,能夠把某件事做到極致,比如純粹的下棋,人臉識(shí)別,商品推薦等等。
假如涉及到復(fù)雜的決策環(huán)境,比如在無(wú)邊界,數(shù)據(jù)完整性不夠的情況下的斷案,那福爾摩斯、徐賓依靠人類進(jìn)化而來(lái)的的邏輯大腦可以做出更為明智的判斷。
但一旦判斷方向準(zhǔn)確,算法就可以起到強(qiáng)大的輔助作用,比如DNA檢測(cè)等等,遺憾的是,徐賓在那個(gè)時(shí)候只能孤身作戰(zhàn),如果徐賓穿越到現(xiàn)代,一定可以依靠算法的協(xié)助讓其決策水平更上一層樓,兩者是相輔相成的。
四、大數(shù)據(jù)的技術(shù)
從數(shù)據(jù)采集看,現(xiàn)代大數(shù)據(jù)的數(shù)據(jù)采集依托專業(yè)的ETL工具,將分布在各處的異構(gòu)數(shù)據(jù)抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為數(shù)據(jù)挖掘的基礎(chǔ),而且實(shí)時(shí)性越來(lái)越高。
而唐代大數(shù)據(jù)的采集是這么記錄的:“各縣配備錄入吏,該縣百姓的添丁新喪、婚配嫁娶、買賣奴婢,衙門之間的人員往來(lái)、人事變動(dòng)、車馬糧草、征收賦稅等一切事務(wù),將被錄入吏一一查證,悉數(shù)記錄到案牘中?!?/p>
最大特征就是靠人工紙質(zhì)記錄,效率之低可想而知,比如每個(gè)人記錄的標(biāo)準(zhǔn)可能不統(tǒng)一,因此無(wú)法保證數(shù)據(jù)質(zhì)量,比如在錄入的時(shí)候無(wú)法快速的判斷重復(fù),無(wú)法方便的實(shí)現(xiàn)紙質(zhì)的案牘修改功能,又比如寫錯(cuò)了怎么辦等等。
從數(shù)據(jù)處理看,現(xiàn)代大數(shù)據(jù)用分布式架構(gòu)來(lái)解決海量數(shù)據(jù)的計(jì)算瓶頸,也就是能夠自動(dòng)把一個(gè)針對(duì)海量數(shù)據(jù)的計(jì)算任務(wù)拆成多個(gè)子數(shù)據(jù)任務(wù),然后多個(gè)子任務(wù)并行計(jì)算,最后再自動(dòng)匯總,這樣就可以實(shí)現(xiàn)處理速度的飛躍。
而唐代大數(shù)據(jù)的數(shù)據(jù)處理估計(jì)還是以人工集中式的為主,比如徐賓要統(tǒng)計(jì)某天進(jìn)入長(zhǎng)安城的人數(shù),肯定得安排一個(gè)下屬找到對(duì)應(yīng)的冊(cè)子去一個(gè)個(gè)數(shù)吧,而這個(gè)數(shù)的過(guò)程是無(wú)法交給不同人處理的,如果要分布式處理,則也是非常麻煩。
首先,要有人負(fù)責(zé)把本子平均拆成多份,其次,根據(jù)份數(shù)安排對(duì)應(yīng)的人分別去統(tǒng)計(jì),最后,還要有人匯總記錄各人統(tǒng)計(jì)的結(jié)果,如果某個(gè)人能力差點(diǎn)統(tǒng)計(jì)的慢一點(diǎn),所有人都要等那個(gè)人的結(jié)果,總體耗費(fèi)的時(shí)間可能更長(zhǎng),這個(gè)管理成本是非常高的,而現(xiàn)在大數(shù)據(jù)分布式處理能基于算法自動(dòng)高效的完成這種資源分配及協(xié)調(diào)問(wèn)題。
從數(shù)據(jù)存儲(chǔ)看,現(xiàn)代大數(shù)據(jù)不僅能基于關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)類似名字,籍貫等結(jié)構(gòu)化數(shù)據(jù),也能用NOSQL等數(shù)據(jù)庫(kù)存儲(chǔ)圖像,視頻等非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)中非常方便檢索,而唐代大數(shù)據(jù)則只能存儲(chǔ)于紙質(zhì)書(shū)中,存儲(chǔ)的數(shù)量還受限于紙張印刷量。
大家也看到了,因?yàn)榇蟀笭┬g(shù)記錄卷宗需要大量的紙張,但唐朝的藤紙相當(dāng)匱乏,所以徐賓將每月的俸銀都用來(lái)買書(shū)做造紙坊了,可見(jiàn)唐代要存儲(chǔ)數(shù)據(jù)是多么不容易的事情啊。
五、大數(shù)據(jù)的應(yīng)用
唐代大數(shù)據(jù)展示給我們最大的應(yīng)用就是“大案牘術(shù)”,也就是在司法、安全、民生領(lǐng)域基于大數(shù)據(jù)做決策判斷,為社會(huì)穩(wěn)定做出貢獻(xiàn),但現(xiàn)代大數(shù)據(jù)的應(yīng)用領(lǐng)域可遠(yuǎn)遠(yuǎn)超越了這個(gè)范疇,而且重點(diǎn)集中在互聯(lián)網(wǎng)、金融等新興領(lǐng)域,下面舉一些例子:
在互聯(lián)網(wǎng)領(lǐng)域,我們每天接受到的廣告就是最大的一類大數(shù)據(jù)應(yīng)用。
在金融領(lǐng)域,風(fēng)控大數(shù)據(jù)始終是應(yīng)用的焦點(diǎn),比如大家接觸到的芝麻信用分算是其中很小的一個(gè)應(yīng)用。
當(dāng)然還有醫(yī)療行業(yè)的電腦醫(yī)生、交通行業(yè)的自動(dòng)駕駛、工業(yè)上的個(gè)性制造、體育行業(yè)的運(yùn)動(dòng)員大數(shù)據(jù)分析、能源行業(yè)的用電預(yù)測(cè)、通信行業(yè)的客戶挽留等等,大數(shù)據(jù)已經(jīng)滲透進(jìn)每個(gè)人的生活。
以上筆者以《長(zhǎng)安十二時(shí)辰》為例子,簡(jiǎn)單的對(duì)比了下現(xiàn)代大數(shù)據(jù)與唐代大數(shù)據(jù)的區(qū)別,涵蓋了大數(shù)據(jù)概念、分析、技術(shù)、應(yīng)用等各個(gè)方面,但現(xiàn)代大數(shù)據(jù)與唐代大數(shù)據(jù)其實(shí)是沒(méi)有可比性的,因?yàn)榛A(chǔ)完全不一樣。
現(xiàn)代大數(shù)據(jù)是建構(gòu)在近現(xiàn)代科技基礎(chǔ)上,特別是信息時(shí)代的新數(shù)學(xué)和新方法論、電子計(jì)算機(jī)、互聯(lián)網(wǎng)、通信網(wǎng)等等,筆者所以這么比較,只是為了更方便的說(shuō)清楚大數(shù)據(jù)的一些概念。
當(dāng)然如果換個(gè)角度,脫離“術(shù)”的范疇,那《長(zhǎng)安十二時(shí)辰》中有兩點(diǎn)大數(shù)據(jù)的做法是發(fā)人深省的,也是當(dāng)前大數(shù)據(jù)發(fā)展中的難點(diǎn):
第一,唐代建立了靖安司這個(gè)集中化的數(shù)據(jù)管理組織。
靖安司為唐玄宗設(shè)定的統(tǒng)攝整個(gè)西都賊事策防的機(jī)構(gòu),凌駕于諸署之上,負(fù)責(zé)收集來(lái)自全國(guó)各地的信息收集和傳遞。靖安司內(nèi)有個(gè)龐大的庫(kù)房,堆積著從三省六部、一臺(tái)九寺五監(jiān)的機(jī)密要件 。這不就是一個(gè)全國(guó)性的數(shù)據(jù)倉(cāng)庫(kù)嗎?
孤立的一個(gè)數(shù)據(jù)的價(jià)值是極其有限的,大數(shù)據(jù)必須打破孤島,集中起來(lái)才能辦大事,所謂1+1>2,比如徐賓做推測(cè)是要綜合多個(gè)要素相互驗(yàn)證才能使得做出的結(jié)論合情合理,因此,打破數(shù)據(jù)邊界是現(xiàn)代數(shù)據(jù)管理者的一個(gè)使命!
第二,人員檔案、用戶行為數(shù)據(jù)搜集的完整性令人瞠目。
靖安司建設(shè)了相關(guān)應(yīng)用,例如人員檔案。徐賓在被懷疑后,就被用大案牘術(shù)推演了個(gè)人戶籍、軌跡、行為信息。他的出身、房產(chǎn)變動(dòng)、妻子的勞動(dòng)關(guān)系、異常行為等等都記錄詳盡,被李必查了個(gè)底兒掉。
其中記錄的信息之詳盡,包括你去哪個(gè)酒吧喝的什么酒、與誰(shuí)喝酒、誰(shuí)付的錢這些,恐怕放在今日,都難有人能做到這么詳實(shí)的記錄,堪稱人口管理工作模板。
顯然上述描述過(guò)于夸張了,但這似乎是現(xiàn)代大數(shù)據(jù)所希望能達(dá)到的境界,我們也許遲早會(huì)處于一個(gè)現(xiàn)代天網(wǎng)之下,這到底是好事還是壞事呢,就看管理者的智慧了吧!
《長(zhǎng)安十二時(shí)辰》在提供給大家賞心悅目的劇情和華麗的畫面之余,如果能普及點(diǎn)大數(shù)據(jù)知識(shí),也算是很有意義的事情,歡迎大家閱讀評(píng)論!
作者:傅一平,微信:fuyipingmnb,公眾號(hào):與數(shù)據(jù)同行
來(lái)源:https://mp.weixin.qq.com/s/0Z7UvZfW4O6gWCAvgtL_1g
本文由 @傅一平 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
在那個(gè)時(shí)代,也是很牛逼了