“微博大數據”可以這么玩,讓你聽到雅安人的真實聲音
自從4月20日之后,大家打開微博以后,時間軸上全是關于雅安和地震的微博和信息,這么多天來,大家已經習慣于從微博獲取地震的信息,一起為雅安祈福、加油,感覺是通過微博與跟雅安人民一起經歷地震的傷痛和感動。 但是,大家有沒有認真想過,在關于雅安地震的微博中,哪些是雅安人民的真實心聲,而哪些是謠言呢?許多人,肯定會說,好多微博大部分網友都驗證過,謠言肯定會被過濾或者粉碎。而冷酷的事實卻是,新浪微博作為弱關系的信息網絡,度的分布是呈冪率分布的,少數中心節點的鏈接數大大多于普通節點。 這樣的結果導致我們在微博上看到的信息都是大V主導的信息,或者是是他發布的,或者是他加工的。而這些大V有沒有到過雅安呢?相信大多數是沒去過的,都是在那里坐而論道。所以他們傳播的信息,到底是不是真正雅安人的心聲,是否真實,我們都要打一個大大的問號。 同時,一個不容忽視的問題是,作為真正的雅安災區群眾的發出的微博,因為本身號太小,擁有的鏈接數(粉絲數)有限,他們的聲音在微博的海量數據里,卻很容易被忽略了。相信大部分人,關注了這么多天雅安地震的微博信息,卻不會關注一個雅安本地人吧。 有沒有辦法,把雅安本地人的微博匯集到一起,做一個實時更新的頁面,讓大家真正了解雅安當地人真正的心聲呢。我從事新浪微博數據挖掘的朋友@肖培征 和@張文浩等一幫人,正是基于這個想法,做了一個“雅安之聲”的站點,專門匯聚了雅安本地網友的微博,通過他們的視角還原現場最真實的情況。 為什么做雅安之聲 據肖培征講,他創業的方向是微博運營和數據挖掘,雅安地震時,本能的反映是對雅安地區網友的微博進行數據分析。馬上從庫里找出所在地是雅安的一萬多微博用戶,調用新浪微博開放接口掃描數據。 每一條微博,都是一個悲慘的畫面,我猶如置身雅安,心情沉重又無奈,不知道能為災區同胞做點什么。 各大互聯網公司行動迅速,但都一窩蜂的做尋人。尋人雖然是剛需,但我再做意義不大。 隨著時間的推進,雅安多數地區電力、通訊逐步恢復,兩天之后,雅安網友發布的微博數量逐漸增多,我的信息也越來越豐富。但是打開電視看直播,打開微博看大V發布的信息,卻與我看到的視角完全不同。 大量的救災信息淹沒了雅安本地網友的內容,沒有專用數據挖掘工具,在微博通過關鍵字搜索等很難找到。也許有人需要這些信息,應該發揮優勢做個容易使用的產品,讓普通網友能迅速找到這些信息。 雅安之聲解決的問題 救援人員點擊“緊急”按鈕查看被標注的微博,迅速找到求助信息及時救助。通過關鍵字如“帳篷”等搜索微博,精確找到物資缺乏的災民,為救援物質調配起到查漏補缺的作用。 一線記者可以通過“給力”“氣憤”兩個按鈕迅速獲取新聞線索,幫助現場采訪。未能到達災區的記者,可以通過微博內容了解現場情況獲取一手新聞素材。 網友可以觀看原汁原味的微博直播。內容由雅安本地網友創造,未經媒體或微博大V加工,保持了原汁原味。這里有反應災情的揪心內容,也有反應日常生活的普通內容,更加鮮活。 產品開發 這些信息的第一用途肯定是救災,如何讓救援人員迅速找到重要信息,信息重要程度用神馬參數衡量呢? 已經是22日中午了,黃金救援時間都過去60個小時了,他們沒有時間去思考重要程度的算法,那需要大量時間不斷的試錯改進,而現在最缺的就是時間,必須找到電風扇吹空肥皂盒這種笨拙但簡單有效的方法。 肖培征想到了眾包,在微博下面設幾個按鈕,讓普通網友看直播時捎帶著標注重要性,于是便有了這張草圖。 幾天的積累,他們的雅安微博用戶ID已經增長到一萬八千個,用開放接口完整輪詢一遍需要幾個小時,信息更新速度太慢。與死神賽跑每一秒都要爭取,這個時間是無法容忍的。 他們求助新浪官方,新浪免費給他們開通了開放平臺之外的“訂閱”接口。從開始溝通到正式開通,總共只用了58分鐘,效率非常高。但是訂閱接口也有數量限制且官方無法更改模塊,依然不能滿足我一萬八千個ID的需求量,而且ID數量還在不斷增加。 肖用@勤娘紙 賬號發了條微博,招募志愿者請求同行幫助。平時打的頭破血流的競爭對手,迅速表態放下恩怨,共享資源解決難題。 開發人員連軸轉,從畫出草圖到產品測試,只用了20個小時,晚上測試修改完畢第一版正式上線。 23日19:49微博發出鏈接,迅速被轉發四百多次,他們收到網友評論和私信大量反饋。從反饋中發現,物資調配信息需求最強烈,因為黃金救援時間已過,救援隊伍的主攻方向是發放帳篷等救援物資。 產品存在的問題集中在兩點,第一、設定的按鈕“重要”沒有引起網友的重視,被標注的次數不多,導致重要信息沒有篩選出來。第二、標注“重要”的微博是按照標注次數排序,這樣排在最前面的反而是幾個小時之前的信息。 24日凌晨一點,他們更新了第二版,將按鈕改為“緊急”“給力”“氣憤”三個,排序規則改為12小時內的微博按時間排序,12小時候后的按標注次數排序。并且添加了關鍵字搜索功能,方便救援人員根據物資情況精確查找。 三十多個小時的時間,他們更新了兩個版本,改了四次算法,加上@獨到網 的接口級別較高,微博同步延遲時間壓縮到5分鐘左右。 此時,雅安之聲已經是一個有用、能用的產品了。 當你打開網站,就會看到兩萬多雅安網友五分鐘之前的發的全部微博,可以很方便的找到你需要的信息。 只是網站不太好看,志愿者中沒設計人員。 實際效果 根據北大可視化小組@曉如微博 標注的雅安微博用戶分布圖,我們的數據可以全面反映雅安情況,包括曾經被忽視的天全等縣,以及一些偏遠的鄉鎮。 宣傳雅安之聲的微博被轉發489次,理論上凈覆蓋人數460萬,@桔子水晶吳海 @酒紅冰藍 @丁來峰 @白玉峰 等關鍵人物參與了轉發。 24日晚十點鐘左右檢查PV,發現這幾天@獨到網 的PV沒有任何增長。大家一直忙著看用戶反饋改產品,竟然沒檢查CNZZ的統計。 22:38分修復后,顯示15分鐘內119人在線,瀏覽次數為250次。第一微博宣傳的四百多次轉發是在23日,第二這個時間段不是高峰期,我們大致推斷24日PV在一萬以上,23日PV在五萬以上。 數據的意義 截止24日,2.1萬雅安網友中的七千多人在地震后發出14萬條微博,活躍用戶高達35%,平均每個用戶以每天4條的高頻率發布微博。之前有微博活躍度下降,微信將取代微博,甚至微博已死等言論,但關鍵時刻還是微博頂上去了,微博在信息擴散的速度上的確優于微信。 國外已經可以通過社交網絡的數據挖掘預測流感趨勢,監測災難時期的民眾恐慌情緒等。他們會對抓取的原始數據進行分析,期望能夠為救災工作總結經驗教訓。水平有限,不敢說一定能成功,但做一下探索,失敗了也能讓后來者避開陷阱少走彎路。 雅安之聲地址:http://www.doodod.com/doodod/yaanzhisheng 本文來源于鈦媒體,轉載時有刪改。