大數(shù)據(jù)與數(shù)據(jù)挖掘的相對絕對關(guān)系
數(shù)據(jù)不是信息,而是有待理解的原材料。但有一件事是確定無疑的:當(dāng)NSA為了從其海量數(shù)據(jù)中“挖掘”出信息,耗資數(shù)十億改善新手段時,它正受益于陡然降落的計算機(jī)存儲和處理價格。
麻省理工學(xué)院的研究者約翰·古塔格(John Guttag)和柯林·斯塔爾茲(Collin Stultz)創(chuàng)建了一個計算機(jī)模型來分析之心臟病病患丟棄的心電圖數(shù)據(jù)。他們利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在海量的數(shù)據(jù)中篩選,發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者——一年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍。這種新方法能夠識別出更多的,無法通過現(xiàn)有的風(fēng)險篩查被探查出的高危病人。
數(shù)據(jù)挖掘這一術(shù)語含義廣泛,指代一些通常由軟件實現(xiàn)的機(jī)制,目的是從巨量數(shù)據(jù)中提取出信息。數(shù)據(jù)挖掘往往又被稱作算法。
威斯康星探索學(xué)院主任大衛(wèi)·克拉考爾(David Krakauer)說,數(shù)據(jù)量的增長——以及提取信息的能力的提高——也在影響著科學(xué)。“計算機(jī)的處理能力和存儲空間在呈指數(shù)增長,成本卻在指數(shù)級下降。從這個意義上來講,很多科學(xué)研究如今也遵循摩爾定律。”
在 2005年,一塊1TB的硬盤價格大約為1,000美元,“但是現(xiàn)在一枚不到100美元的U盤就有那么大的容量?!毖芯恐悄苎莼目死紶栒f?,F(xiàn)下關(guān)于大數(shù)據(jù)和數(shù)據(jù)挖掘的討論“之所以發(fā)生是因為我們正處于驚天動地的變革當(dāng)中,而且我們正以前所未有的方式感知它?!笨死瓌跔栒f。
隨著我們通過電話、信用卡、電子商務(wù)、互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡,大數(shù)據(jù)不斷增長的商業(yè)影響也在如下時刻表現(xiàn)出來:
◆你搜索一條飛往塔斯卡魯薩的航班,然后便看到網(wǎng)站上出現(xiàn)了塔斯卡魯薩的賓館打折信息
◆你觀賞的電影采用了以幾十萬G數(shù)據(jù)為基礎(chǔ)的計算機(jī)圖形圖像技術(shù)
◆你光顧的商店在對顧客行為進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤
◆用算法預(yù)測人們購票需求,航空公司以不可預(yù)知的方式調(diào)整價格
◆智能手機(jī)的應(yīng)用識別到你的位置,因此你收到附近餐廳的服務(wù)信息
互聯(lián)網(wǎng)上的火眼金睛
當(dāng)醫(yī)學(xué)家忙于應(yīng)對癌癥、細(xì)菌和病毒之時,互聯(lián)網(wǎng)上的政治言論已呈燎原之勢。整個推特圈上每天要出現(xiàn)超過5億條推文,其政治影響力與日俱增,使廉潔政府團(tuán)體面臨著數(shù)據(jù)挖掘技術(shù)帶來的巨大挑戰(zhàn)。
印第安納大學(xué)Truthy(意:可信)項目的目標(biāo)是從這種每日的信息泛濫中發(fā)掘出深層意義,博士后研究員埃米利奧·費拉拉(Emilio Ferrara)說。“Truthy是一種能讓研究者研究推特上信息擴(kuò)散的工具。通過識別關(guān)鍵詞以及追蹤在線用戶的活動,我們研究正在進(jìn)行的討論。”
Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的。每一天,該項目的計算機(jī)過濾多達(dá)5千萬條推文,試圖找出其中蘊(yùn)含的模式。
Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的。每一天,該項目的計算機(jī)過濾多達(dá)5千萬條推文,試圖找出其中蘊(yùn)含的模式。
大數(shù)據(jù)盯著“#bigdata”(意為大數(shù)據(jù))。這些是在推特上發(fā)布過“bigdata”的用戶之間的連接,用戶圖標(biāo)的尺寸代表了其粉絲數(shù)多寡。藍(lán)線表示一次回復(fù)或者提及,綠線表示一個用戶是另一個的粉絲。
一個主要的興趣點是“水軍”,費拉拉說:協(xié)調(diào)一致的造勢運動本應(yīng)來自草根階層,但實際上是由“熱衷傳播虛假信息的個人和組織”發(fā)起的。
2012年美國大選期間,一系列推文聲稱共和黨總統(tǒng)候選人米特·羅姆尼(Mitt Romney)在臉譜網(wǎng)上獲得了可疑的大批粉絲?!罢{(diào)查者發(fā)現(xiàn)共和黨人和民主黨人皆與此事無關(guān)?!辟M拉拉說,“幕后另有主使。這是一次旨在令人們相信羅姆尼在買粉從而抹黑他的造勢運動。”
水軍的造勢運動通常很有特點,費拉拉說?!耙氚l(fā)起一場大規(guī)模的抹黑運動,你需要很多推特賬號,”包括由程序自動運行、反復(fù)發(fā)布選定信息的假賬號?!拔覀兺ㄟ^分析推文的特征,能夠辨別出這種自動行為。”
推文的數(shù)量年復(fù)一年地倍增,有什么能夠保證線上政治的透明呢?“我們這個項目的目的是讓技術(shù)掌握一點這樣的信息。”費拉拉說,“找到一切是不可能的,但哪怕我們能夠發(fā)現(xiàn)一點,也比沒有強(qiáng)?!?/p>
隨著數(shù)據(jù)及通訊價格持續(xù)下跌,新的思路和方法應(yīng)運而生。
如果你想了解你家中每一件設(shè)備消耗了多少水和能量,麥克阿瑟獎獲得者西瓦塔克·帕特爾 (Shwetak Patel)有個解決方案:用無線傳感器識別每一臺設(shè)備的唯一數(shù)字簽名。帕特爾的智能算法配合外掛傳感器,以低廉的成本找到耗電多的電器。位于加利福尼亞 州海沃德市的這個家庭驚訝地得知,錄像機(jī)消耗了他們家11%的電力。等到處理能力一次相對較小的改變令結(jié)果出現(xiàn)突破性的進(jìn)展,克拉考爾補(bǔ)充道,大數(shù)據(jù)的應(yīng)用可能會經(jīng)歷一次“相變”。
“大數(shù)據(jù)”是一個相對的說法,不是絕對的,克拉考爾指出?!按髷?shù)據(jù)可以被視作一種比率——我們能計算的數(shù)據(jù)比上我們必須計算的數(shù)據(jù)。大數(shù)據(jù)一直存在。如果你想一下收集行星位置數(shù)據(jù)的丹麥天文學(xué)家第谷布拉赫(Tycho Brahe,1546-1601),當(dāng)時還沒有解釋行星運動的開普勒理論,因此這個比率是歪曲的。這是那個年代的大數(shù)據(jù)。”
大數(shù)據(jù)成為問題“是在技術(shù)允許我們收集和存儲的數(shù)據(jù)超過了我們對系統(tǒng)精推細(xì)研的能力之后?!笨死紶栒f。
我們好奇,當(dāng)軟件繼續(xù)在大到無法想象的數(shù)據(jù)庫上執(zhí)行復(fù)雜計算,以此為基礎(chǔ)在科學(xué)、商業(yè)和安全領(lǐng)域制定決策,我們是不是把過多的權(quán)力交給了機(jī)器。在我們無法覷探之處,決策在沒人理解輸入與輸出、數(shù)據(jù)與決策之間的關(guān)系的情況下被自動做出?!斑@正是我所從事的領(lǐng)域,”克拉考爾回應(yīng)道,“我的研究對象是宇宙中的智能演化,從大爆炸到大腦。我毫不懷疑你說的?!?/p>
本文來源:大數(shù)據(jù)中國 節(jié)選
- 目前還沒評論,等你發(fā)揮!