國外幕后人員分析新浪微博的刪帖機制

0 評論 6479 瀏覽 1 收藏 3 分鐘

鑒于微博API的限制,研究人員主要跟蹤了最可能會發敏感帖子的敏感用戶組。從2012年7月20日到9月8日,研究人員利用API以每分鐘一次的頻率搜索3500位用戶的時間線,以每四秒一次的頻率搜索公共時間線。由于新浪微博不支持匿名查詢,所以他們利用Tor隱藏IP后創建虛假用戶帳號。他們共收集了238萬用戶時間線帖子,刪貼率是12.75%。考慮到新浪需要處理的大數據集規模,發帖后5到10分鐘的刪貼峰值,尤其是考慮到刪貼無法完全用自動方式處理,新浪是如何做到迅速發現和刪除敏感帖子?研究人員提出了六個假說:

1.新浪微博有一個監視關鍵詞列表,審查員將會瀏覽包含這些關鍵詞的帖子決定是否刪除。

2.微博有針對性的監視頻繁發敏感帖子的用戶。

3.在發現一個敏感帖子之后,審查員可以追溯所有相關的轉貼,可以一次性的全部刪除。

4.通過關鍵詞搜索,微博刪除了追溯的帖子導致了特定關鍵詞在短時間內出現刪除峰值。

5.審查員工作是分布式的,相對獨立,其中部分人可能是兼職。

6.刪貼速度與主題有關,根據主題的敏感度刪除速度存在差異。研究人員利用自然語言處理技術進行刪貼主題分析,發現某些熱門主題帖子比另外一些主題更快被刪除(如圖所示),如群交、北京暴雨死亡人數和司法獨立等都在極端時間內刪除了。

研究人員總結了微博的過濾機制,其中主動過濾機制包括:顯式過濾,微博通知發貼人他們的帖子內容違反了內容政策(但有些時候用戶并不清楚到底是因為什么敏感詞受阻);隱式過濾,微博需要在手動審查帖子后才會允許帖子上線;偽裝發帖成功,其他用戶看不到這位用戶的帖子。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!