大數(shù)據(jù)時代的數(shù)據(jù)價值迷思:新聞媒體的數(shù)據(jù)真的不如社交媒體?

0 評論 4256 瀏覽 13 收藏 17 分鐘

社交媒體平臺巨大、更新速度快、內(nèi)容多樣,以致于人們都誤以為其承載的數(shù)據(jù)肯定也是龐大而又有價值的,新聞媒體的數(shù)據(jù)權(quán)威性在社交媒體時代遭受質(zhì)疑。但是,事實真的如人們所想的那樣嗎?社交媒體數(shù)據(jù)的價值真的比新聞媒體還要大嗎?其實不然。

由于為全球范圍內(nèi)的對話提供了廣泛的可能性,社交媒體如今成為“大數(shù)據(jù)”的代言人。平臺巨大的規(guī)模、超快的更新速度和多樣的內(nèi)容被視為大數(shù)據(jù)時代教科書級的范例。

但是,當(dāng)人們對社交媒體的數(shù)據(jù)價值格外重視,或許也該反向思考——社交媒體上的數(shù)據(jù),真的比新聞媒體這樣的傳統(tǒng)數(shù)據(jù)更多,更有價值嗎?

在互聯(lián)網(wǎng)數(shù)據(jù)領(lǐng)域深耕超過20年的互聯(lián)網(wǎng)企業(yè)家,及學(xué)者Kalev Leetaru,以Twitter為例撰文指出:社交媒體的數(shù)據(jù)價值可能被人們高估了,而新聞媒體則被低估。

本期筆者跟隨KalevLeetaru的視角,以嚴(yán)格的數(shù)據(jù)計算為支撐,破解大數(shù)據(jù)時代的數(shù)據(jù)價值迷思。

你以為社交媒體帖子=大數(shù)據(jù)集?其實它可能不如新聞媒體的文本可靠

Kalev Leetaru:喬治華盛頓大學(xué)(George WashingtonUniversity)網(wǎng)絡(luò)與國土安全中心高級研究員,曾任谷歌云平臺開發(fā)專家

社交媒體“大”數(shù)據(jù),沒有想象中那么大

在今天,人們把社交平臺看作大數(shù)據(jù)的縮影。

但是,值得注意的是:這些平臺對外部的透明度不高,意味著它們的印象構(gòu)建,實際上都是基于這些公司自己向公眾披露的數(shù)據(jù),和創(chuàng)造的美好概念,比如:“活躍用戶”。

這些數(shù)字一直在變化,概念也在不斷演變,但唯一的目的都是反映整個社交媒體生態(tài)最美好的一面。

人們對社交平臺的崇拜之情主要基于一個信念:它們的服務(wù)器擁有一個難以想象的大型全球人類行為檔案。

但是,與過去作為數(shù)據(jù)來源的傳統(tǒng)媒體相比,社交媒體擁有的這個檔案真的大得多嗎?

就最近的事件來看,F(xiàn)acebook在去年開放了一個大型數(shù)據(jù)集,為學(xué)者研究提供材料,其中包括:“1PB(千萬億字節(jié))的數(shù)據(jù),儲存著全球Facebook用戶,點擊過的幾乎所有公開鏈接、點擊發(fā)生在何時、以及點擊的用戶是什么類型的?!薄?/p>

但在專業(yè)人士的分析中指出:該數(shù)據(jù)集盡管是PB級別,但其在公布時預(yù)計僅包含300億行,大概是每周從3億帖子中生成200萬個數(shù)據(jù)的增長速度。

你以為社交媒體帖子=大數(shù)據(jù)集?其實它可能不如新聞媒體的文本可靠

Facebook與Social Science One建立合作伙伴關(guān)系,向其開放PB級別的用戶數(shù)據(jù),搭建業(yè)界與學(xué)界的橋梁。

對于許多研究人員來說,300億行聽起來像是他們一生都分析不完的海量數(shù)據(jù)。然而,按照現(xiàn)代標(biāo)準(zhǔn),300億條記錄是一個相當(dāng)小的數(shù)據(jù)集,而PB級數(shù)據(jù)在大數(shù)據(jù)時代早已見怪不怪。

作為對比,Kalev Leetaru提出:自己的開放數(shù)據(jù)項目GDELT已經(jīng)編制了一個數(shù)據(jù)庫,該數(shù)據(jù)庫自2018年3月以來已經(jīng)從全球新聞媒體主頁中收集超過850億個外鏈。換句話說,它只用了一半的時間,卻是Facebook數(shù)據(jù)集的2.8倍。

你以為社交媒體帖子=大數(shù)據(jù)集?其實它可能不如新聞媒體的文本可靠

由Kalev Leetaru創(chuàng)建的GDELT是有史以來最大,最全面,最清晰的關(guān)于人類社會的開放數(shù)據(jù)庫,每日監(jiān)控世界各地的新聞媒體更新。

社交媒體與新聞媒體相比,其數(shù)據(jù)方面的差距并不一定像人們想象得那么大。

之所以產(chǎn)生錯誤的想象,僅僅是因為歷來缺乏將新聞媒體視為大數(shù)據(jù)工具的習(xí)慣。而相比之下,社交媒體從一開始就積極地將自己與大數(shù)據(jù)掛鉤,并在建設(shè)上最大限度地與數(shù)據(jù)分析靠攏。

Twitter的“大”數(shù)據(jù)庫,研究價值有限

既然社交媒體在數(shù)據(jù)量上,并沒有人們想象得那樣無敵,那么,在數(shù)據(jù)的研究價值層面表現(xiàn)又如何呢?

社交媒體巨頭Twitter雖然只成立了短短13年,但數(shù)千億條推文賦予它厚度,每天成千上萬人發(fā)推賦予它速度,而文字、圖像和視頻的混合則豐富了它的維度。在全球范圍內(nèi),Twitter都絕對稱得上這場大數(shù)據(jù)革命重要的注腳。

大量學(xué)者使用Twitter的數(shù)據(jù)進行研究,而KalevLeetaru指出:在Twitter的海量數(shù)據(jù)中,有研究價值的部分其實有限。

Twitter本身不定期公布推文數(shù)量的相關(guān)數(shù)據(jù)。然而,根據(jù)先前的研究推斷,可以合理地估計自13年前該平臺成立以來,推文數(shù)量已累計超過一萬億條。

乍一看,一萬億是個非常龐大的數(shù)字,但從內(nèi)容的角度考慮,推文實際上很小。因為畢竟它只是一個最多包含140個字符的文本。

這意味著:即使推文總量大,但每條推文傳遞的信息其實很少。

進一步來看,甚至很少有推文是接近140個字符的,每條英語推文平均包含34個字符,而日語推文平均僅包含15個字符。

此外,雖然Twitter的原始數(shù)據(jù)非常大,但其中只有4%是推文文本數(shù)據(jù)。由于大多數(shù)針對Twitter的分析是關(guān)注推文的文本,所以對社會分析有用的數(shù)據(jù)量其實非常小。

一萬億條140個字符的推文,也只產(chǎn)生140TB(太字節(jié))的數(shù)據(jù)。而實際情況是,在2012年,Twitter上的推文平均長度為74B(字節(jié))。

這意味著:那萬億個推文的文本轉(zhuǎn)化為數(shù)據(jù),只有74TB。

而根據(jù)2012到2014年的狀況推斷,可以估計:在這萬億推文中有35%是轉(zhuǎn)推。

那么,有價值的數(shù)據(jù)可能要縮減到48TB。此外,這些文本中還包含著超鏈接、提到其他用戶(@XXX)等內(nèi)容,這些文字是也缺乏分析價值的。

你以為社交媒體帖子=大數(shù)據(jù)集?其實它可能不如新聞媒體的文本可靠

1TB約等于15個64GB的手機存儲數(shù)據(jù)量。

社交媒體VS傳統(tǒng)媒體,誰掌握著大數(shù)據(jù)?

Twitter VS數(shù)字化書籍:十三年的文本超越兩個世紀(jì)的書籍?

2010年的Google Books NGrams中囊括了所有已出版書籍的4%,總計5000億字,估計大小約為3TB,比Twitter的數(shù)據(jù)量小24倍。Internet Archive(互聯(lián)網(wǎng)檔案館)的英語公共領(lǐng)域書籍文本總計約450GB,比Twitter小約85倍。

你以為社交媒體帖子=大數(shù)據(jù)集?其實它可能不如新聞媒體的文本可靠

Google Books Ngrams Viewer:開放數(shù)據(jù)庫,可以查詢?nèi)魏我粋€或幾個詞在過去500年內(nèi)在書籍中的出現(xiàn)頻率變化趨勢。

圖中為“l(fā)ife,liberty,happiness”三詞的結(jié)果。

你以為社交媒體帖子=大數(shù)據(jù)集?其實它可能不如新聞媒體的文本可靠

Internet Archive是一個非營利性的數(shù)字圖書館組織,提供數(shù)字?jǐn)?shù)據(jù),如:網(wǎng)站、音樂、動態(tài)圖像、和數(shù)百萬書籍的永久性免費存儲及獲取。

但是,Google和InternetArchive的數(shù)字化圖書館藏書只包含每本書的一個副本。因此,將它們與轉(zhuǎn)推無數(shù)的Twitter相比是不公平的。

通過過濾轉(zhuǎn)發(fā)可以發(fā)現(xiàn):Twitter的數(shù)據(jù)量只是Google Books NGrams的16倍,是Internet Archive的公共領(lǐng)域書籍的54倍。

按照數(shù)據(jù)量來看:僅僅發(fā)展了13年的Twitter的數(shù)據(jù)量,已經(jīng)比今天研究人員可用的兩個世紀(jì)的數(shù)字化書籍更大。

但不可忽視的兩個因素是:首先,數(shù)字化時代改變了出版的邏輯,以前出版一本書的成本太高;而在Twitter時代,個人“出版”的數(shù)量僅受限于敲鍵盤的速度。其次,數(shù)字化的書籍只是人類歷史上極小的一部分,從本質(zhì)上講,這是將Twitter在13年內(nèi)的文本總數(shù)與兩個世紀(jì)的書籍的4%進行比較。

Twitter VS在線新聞:差距只有8倍

考慮到社交媒體與傳統(tǒng)出版業(yè)的較大差別,更有代表性的比較需要找到具有類似特性的媒體。

上文中提到:GDELT的新聞數(shù)據(jù)集在一半的時間內(nèi),成為Facebook數(shù)據(jù)集的三倍。

那么,Twitter與新聞間的數(shù)據(jù)差異又是怎樣?

從2014年11月至今,GDELT項目監(jiān)控了大約3TB的新聞文章文本,該數(shù)據(jù)僅計算文章文本本身。

在同一時期,可以根據(jù)Twitter的先前趨勢估算:其推文總量應(yīng)該在6000億左右。

假設(shè)轉(zhuǎn)發(fā)量隨時間逐漸增加,那么,估計其中3300億條不是轉(zhuǎn)推。

如果按照每條140個字符計算,那么將達(dá)到大約84TB;按照平均每條74個字符計算,就是44TB,但如果不包括轉(zhuǎn)推,這將降至僅24TB。

由GDELT檢測發(fā)現(xiàn):假設(shè)2006年至今發(fā)送的數(shù)萬億條推文都是140個字符,Twitter的數(shù)據(jù)量也僅是2014年至今全球在線新聞量的47倍。使用更為現(xiàn)實的平均推文長度來計算,Twitter的數(shù)據(jù)量是新聞的25倍,移除轉(zhuǎn)發(fā)后則只是16倍。

值得注意的是:這是跨度13年和4年的比較。

如果將兩者都放在4年的時間內(nèi)比較,那么Twitter的數(shù)據(jù)量只是新聞的15倍,移除轉(zhuǎn)發(fā)后就只有8倍了。

因此,如果有人可以訪問2014年至今完整的Twitter消息,那么在同一時間段內(nèi),其文本總量可能只是在線新聞內(nèi)容總量的8倍左右。

從這個角度來看,Twitter是一個很大的平臺,但它和全球新聞相比也不是天差地別。這也提醒了人們,每天在世界各地發(fā)布了多少新聞。

對學(xué)術(shù)研究而言,新聞比社交媒體更有價值

在現(xiàn)實中,只有極少數(shù)研究人員可以獲得Twitter上所有的推文,最大的學(xué)術(shù)研究通常是使用Twitter Decahose進行的,其中僅包含每日推文的大約10%。

2014年至今,Decahose上的數(shù)據(jù)僅為新聞的1.5倍。如果排除轉(zhuǎn)發(fā),新聞則會反超成為Decahose的1.2倍。

很少有大學(xué)有足夠的財力支持去訂閱Twitter Decahose,因此,絕大多數(shù)基于Twitter的學(xué)術(shù)研究都是通過Twitter的搜索API(應(yīng)用程式界面)進行的,該API僅提供每日推文的大約1%。在此情況下,新聞實際上是其數(shù)據(jù)量的6.7倍。如果排除轉(zhuǎn)發(fā),新聞將成為其的12.2倍。

你以為社交媒體帖子=大數(shù)據(jù)集?其實它可能不如新聞媒體的文本可靠

Twitter Developer為學(xué)者研究提供開放數(shù)據(jù)

因此,就大多數(shù)學(xué)者所使用的這1%數(shù)據(jù)而言,Twitter在過去四年中實際上比同一時期的全球在線新聞輸出的數(shù)據(jù)小幾倍。而那些有幸與Decahose合作的學(xué)者,獲取的數(shù)據(jù)實際上也少于他們能從新聞中得到的內(nèi)容。

更極端地假設(shè):一個人可以獲取Twitter上所有的信息,數(shù)據(jù)量也只是新聞的8倍。過濾掉所有超鏈接和提到別的用戶(@XXX)的內(nèi)容,該數(shù)字將進一步縮小。

簡而言之,Twitter是一個龐大的數(shù)據(jù)集,這一點毋庸置疑。但就大多數(shù)分析所關(guān)注的實際文本內(nèi)容而言,由于單條推文的字符有限,一萬億條推文實際上并沒沒有人們想象的那樣有價值。

在許多方面,與傳統(tǒng)的內(nèi)容平臺相比,Twitter更偏向于行為數(shù)據(jù)。

最重要的是:即使在平臺信息完全可接觸的前提下,Twitter實際上也并不比新聞媒體這樣的傳統(tǒng)數(shù)據(jù)集大得多。

就大多數(shù)研究人員使用的Decahose和API而言,新聞媒體實際上提供了更大量的可分析內(nèi)容,并且信息出處更明確,穩(wěn)定性更高,歷史背景更清晰。

大數(shù)據(jù)時代,社交媒體巨頭在數(shù)據(jù)領(lǐng)域占優(yōu)勢已經(jīng)成為共識,甚至塑造了對大數(shù)據(jù)工作的定義。然而,一萬億條推文可以迅速轉(zhuǎn)化成幾十TB的數(shù)據(jù),這樣快速而巨大的信息流通量中,有研究價值的部分其實很少。

而相比社交媒體,傳統(tǒng)媒體卻是巨大的未開發(fā)數(shù)據(jù)源。Twitter肯定符合大數(shù)據(jù)的所有定義,但通過仔細(xì)觀察,結(jié)論是傳統(tǒng)新聞業(yè)并不落后。唯一的不同只是:社交媒體積極突顯自己與大數(shù)據(jù)的關(guān)系,而新聞業(yè)卻未能在數(shù)字時代重塑自己。

通過社交媒體與書籍、新聞的對比,最重要的啟示是:當(dāng)我們不遺余力地,將社交媒體神話化為大數(shù)據(jù)的集大成者時,實際上更重要的是:創(chuàng)造性思考如何利用圍繞著我們的未開發(fā)數(shù)據(jù),并將其帶入大數(shù)據(jù)時代?

作者:全媒派,微信公眾號:全媒派(ID:quanmeipai)

來源:https://mp.weixin.qq.com/s/ATn5cT456rSb1F7X8bDIjg

本文由 @全媒派 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash ,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!