傳播數據挖掘案例:“昆山龍哥反殺案”報告

2 評論 5622 瀏覽 5 收藏 30 分鐘

摘要:傳統的網絡越軌行為往往關注與越軌行為的消極一面。但是本研究以昆山龍哥反殺案為例,重點關注在此次對司法體制的輿論沖擊(良性越軌行為)中民眾、官方媒體以及商業媒體等不同微博主體的主題內容、主題演化以及行為特征。得出結論為:

  1. 民眾在此次越軌事件中更多表現出對官方媒體和商業媒體內容的多元化與對抗性解讀;
  2. 面對此次越軌行為,訴諸情感的人特征為發文數量多,關注持續時間長但是對事件的司法意義缺乏實質性分析;訴諸理性的人的特征為發文數量少,以原創居多,關注持續時間短,但是單篇文章長且分析深刻;
  3. 媒體對民眾的議程具有一定的設置能力且官方媒體的議程設置能力最強;
  4. 民眾支持“判決獨立”?的反越軌行為總體上失效,媒體對于“反越軌”話題有較強的影響力,但并沒有影響輿論的整體趨勢。

一、引言

越軌行為(deviance),是一個社會學概念,它是指違反一定社會的行為準則、價值觀念或道德規范的行為或者對現有的社會規范和社會秩序(包括法律法規)進行反叛和質疑。

所以在社會學意義上,對越軌行為的評價就存在雙面性,一方面越軌行為對社會的穩定性造成傷害被稱為“惡性越軌”,另一方面則促進了社會的改革與發展被稱為“良性越軌”。

與越軌行為相關的概念就是社會控制,社會控制是指對越軌行為進行組織化反應,是為了維護社會秩序或者恢復社會秩序所做的社會化行為。

根據理論框架,在昆山龍哥反殺案的事件中,民眾普遍對我國刑法中有關“正當防衛”的判罰的既有規則表示不滿,并且提出質疑和改變的需求,這種行為可以被當作一種越軌行為,理由如下:

第一,法律本身就是社會的規則,質疑它、否定它甚至要推翻它本身就已經構成了越軌行為;

第二,因為使用輿論手段干預司法,該行為本身是不符合判決獨立原則的。但是該事件的結果卻是促進了“正當防衛”判決向著較為人性化的方向發展,所以根據理論此次民眾的網絡越軌行為可被視為良性越軌行為;

同時,那些倡導“輿論不應該干預司法”以及“判決獨立”的意見可以被視為反越軌行為。

二、問題的提出與分析

越軌行為的研究在社會學中一直屬于主流,它對社會制度的變革以及社會的問題起到非常重要的作用,其理論自然也就非常繁多。

根據本報告研究的事件——昆山龍哥反殺案,本研究選用其中最著名的理論——美國社會學家羅伯特莫頓的結構緊張理論。

該理論認為由于現存制度在政治、經濟以及法律等方面的不完善,比如階級偏向等,導致一部分社會底層群體被迫使用非法、非常規的手段來實現自己的個人目的。

本案中的龍哥其實就是這樣的群體中的一員,而大眾傳媒在這種事件中起到的作用往往比較微妙,一方面部分民眾會因為同情以及社會政治關懷而掀起網絡上的二次越軌行為——對制度本身進行沖擊,另一方面代表著社會控制的主要力量的官方媒體會在一定程度上對這種輿論進行控制。

2.1 問題提出

在以上理論背景下,本研究提出以下三部分問題:

問題一:普通民眾和主流官方媒體在微博上討論該事件都有哪些主題?這些主題中到底蘊含了主流官方媒體或者民眾什么樣的態度?

問題二:普通民眾對于該事件的參與程度如何的?這些民眾的參與程度和他們的背景有無關聯?

問題三:在此次事件的爆發和擴散的過程中,普通民眾和官媒以及商業媒體的所討論的主題是怎樣演化的,三者之間的互動關系如何?

問題四:在此次事件中各個輿論主體中是否存在反越軌行為?如果存在效果如何?

三、研究過程與方法

這四個問題的提出都是基于一個前提假設即:具有官方背景的媒體、普通民眾以及具有商業背景的媒體在本次事件的發酵過程中所討論的主題以及所起到的作用是不同的。

3.1 微博主體分類

本研究首先按照研究需要要對所有微博的背景進行分類,基于這些微博主體的屬性將所有微博的主體分為以下幾類:

第一類,官方媒體即包括具有官方背景和行政背景的媒體(如人民日報、新華社、法制晚報、海南網絡廣播電視臺等)以及地方門戶網站(如杭州網等)共350個;

第二類,各地的司法以及行政管理部門的官方微博(如昆山公安、撫順網警巡查執法等),該類微博主體共146個;

第三類,大型商業媒體。主要為大門戶網站的新聞版塊(網易新聞客戶端等),該類微博主體共48個;

第四類,外國媒體,共12個;

第五類,法律專業服務類媒體,包括律師所以及法律工作行業的網站等共6個;

第六類為除以上微博主體的剩余部分即普通民眾,包括自媒體和個人用戶。

3.2 問題一

問題一主要通過文本主題模型分析發現不同類別微博主體對此次事件的關注點和討論主題,進一步可以發現不同類別群體對事件的討論主題是否存在差異。

所使用的方法為LDA主題模型,使用的工具為python的gensim包中的ldamodel函數。

先對各個類別的微博主體按照perplex指標約束生成符合實際情況的主題數量。然后,邀請具有傳播學背景的志愿者按照傳播學中框架分析的方法對每個主題進行標注,并使用spss軟件中的α信度系數法計算信度,確定最終的主題含義。

3.3 問題二

問題二主要是想考察普通民眾對于這類具有敏感度的越軌事件的參與程度,其中根據文獻提供的量表和相關研究,我們可以將民眾的參與程度分三個方面用8種指標來表示:

第一,信息獲取和發布。該維度下的指標有:X1:與反殺案信息相關微博的轉發次數。X2:轉發微博的平均長度。

第二,意見表達與交流。該維度下的指標有強度指標:X3:微博上發文的平均長度。X4:?微博中涉及到專業司法以及社會安全類別詞匯的占總微博的比重的平均數。X5:原創微博的數量。X6: 原創微博的平均長度時長指標。X7:評論持續的時間(第一條微博與最后一條微博的時間間隔,以分鐘為單位)。

第三,網絡行動。該維度下的指標有:X8:是否參與網絡投票。

在對以上信息進行統計之后,本研究需要對每個變量數值為前10的用戶進行微博定位和背景分析,主要分析該用戶以前發布的微博的文本特征。

3.4 問題三

問題三主要考察了各個類別主題的動態分布,發現各類微博主體的話題演化規律和各個類別之間主題語詞的互動關系。

使用的方法為DTM(動態主題模型),所參考的文獻為,工具為gensim庫中的LdaSeqModel模型。

之所以選擇這個模型一方面是因為該模型相比于其他的動態主題模型較為成熟,另一方面,該模型在進行參數迭代的過程中使用高斯過程,更夠很好地反應主題參數在各個時間切片間的變化。

在參數估計中使用變分卡爾曼濾波方法解決高斯分布和Dirichlet分布的非共軛問題。符合本研究對于主題演變中民眾共識的基本假設即當前時間的民眾討論的主題是以上一個時間片段的共識為基礎進行波動的。

此外,在進行動態主題生成后,本研究會計算官方媒體、商業媒體以及普通民眾三種類型的輿論主體在12個時間片主題的Jaccard距離,得到它們的各自主題演變幅度和交叉演化關系。

3.5 問題四

對于問題四,本研究首先將官方媒體、商業媒體和普通民眾的微博中含有“倡導判決獨立”、“強調輿論不應該干預司法”的微博查找出來,并將所有的微博定位到特定的時間切片中。

此后,本研究以該時間片段內“判決獨立”為主題的微博數量、單條微博評論量和轉發量為三個指標,通過與該時間片段內特定主體所有微博的數量、轉發量和評論量的中位數相比較,綜合評估各個微博主體在?“判決獨立”這一主題上的影響力。

四、研究發現

4.1 問題一研究結果

本研究綜合考量perplex值以及理論背景最后確定官方媒體提取100個主題,各管理部門的官方微博提取100個主題,大型商業媒體提取80個主題,外國媒體提取30個主題,法律專業服務媒體提取30個主題,普通民眾提取100個主題,并重點分析每個主題提取重要度前30的詞匯。

主題經過志愿者的標注以及小組四人的共同審核后,六個類別的信度系數分別為:

表一?各類媒體標注的信度系數

如果以0.6為選擇標準的話,在所有標注類型中,法律專業服務類媒體的信度系數最低。

經過分析本研究發現,法律專業服務類媒體的信度之所以低是因為這些媒體通過模型自動生成的主題中含專業法律詞匯的密度比較低,反而情感類和描述類的詞匯占比很高,例如:第一個主題里面的“大快人心”,“懲惡揚善”等詞匯,或者是相關描述性詞匯。

這和之前本研究認為的法律專業服務類媒體將更多關注法律的解釋和改進的印象差距較大,所以本研究在此得出的第一個結論為:從主題模型的結果看,法律專業服務類媒體在此次事件中并沒有承擔起相應的法律方面的輿論引導或者解釋的作用。

接下來,官方媒體和各行政管理部門官方微博的主題包括對法律條文的介紹和解釋、論證判決的合理性、對相關人物具有黑社會背景進行的辟謠行為、對中國的司法實踐能力提出肯定以及對民眾進行相關合理化建議,總體偏向理性。

但是商業媒體則不然。首先在事件描述層面商業媒體更加開放和大膽,例如“大砍刀”、“血腥”等詞匯屢次出現在商業媒體主題詞的前幾名,另外商業媒體更偏好挖掘受害人的故事,表達也更加情感化,并且帶有強烈的道德審判和譴責。

在事件解釋的過程中,商業媒體的呈現內容也各不相同。例如,輕微地提到了有關于“防衛過當”法條“強人所難”。另外在引申泛化部分,商業媒體更關注人性和法律的沖突以及對未來社會治理的擔憂,這是官方媒體所不及的。

對于普通民眾的主題分析則又有不同的結論。從數據來看,根據前100個主題的類型統計,普通民眾非常善于對相關話題進行引申,即第14個類別項頻數較高。

其次,有相當一部分人還是認為這件事情推動了中國法律的進步,所以第11個類別頻數較高。但是,在對事件主體的態度方面,普通民眾就表現出斯圖爾特·霍爾所謂的“對抗性”解讀來,比如嘲笑龍哥的行為,乃至以江湖的視角為龍哥感到“惋惜”。我們甚至還發現前100個主題里面居然沒有出現譴責龍哥的詞語。

在事件解釋的過程中,部分民眾表達了對于現行法律和社會治安管理能力的強烈不滿,所以數據統計中第8類和第9類主題的頻數都呈現出比較高的趨勢,代表詞匯有“草菅人命”等,甚至提出“以暴制暴”。

關于外國媒體,由于其發布的微博數量非常之少,且看不出明顯的主題傾向,因此無法進行概括分析。

4.2 問題二研究結果

首先,我們對上節出現的變量進行相關性分析(去除了是否參與網絡投票一項,因為該指標并不能反映普通用戶對此次事件的參與程度),結果見附錄E。其次,本研究針對上節提到的那些指標進行切片,并篩選出一些值得分析的微博主體。

從附錄E中的變量相關性分析表中可以看出:

  1. 轉發微博數量與發布微博數量相關系數高達0.96,說明兩者具有很高的相關性,這也符合數據統計結果,在所有民眾微博中,轉發微博數量非常之高,原創微博占比不到3%。
  2. 原創微博平均長度與所有微博平均長度相關系數為0.8,所有微博含司法詞匯平均數量與所有微博平均長度相關系數為0.7,說明原創微博主體更傾向于發表長文對事件進行理性分析。

考慮發布微博的數量,篩選出排名前10的微博主體,這些高發布數量的微博主體具有以下特征:

  1. 平常關心社會時事,尤其是對非公正事件非常關注,且對事件關注從始到終,所以具有潛在的越軌傾向。
  2. 從事法律相關職業,具有對法律知識的判斷能力。
  3. 個人運行號或營銷號。但是不同的是有些人更加喜歡自己發表意見,比如作家肖永樂,但是另一些人不喜歡發布原創微博,這體現出兩者在越軌行為的程度上的差別。

以原創微博發布數量和原創微博平均長度來進行切片,會發現這些人發布的文字平均長度很長,但是法律詞匯的涉及量很少(mean=20),這說明該人群對于時事熱點事件的關注度雖然較高,但是往往評論專注于情感,建設性意見少。

另外,分別以所有微博平均長度、原創微博平均長度以及微博含法律詞匯的平均長度進行切片,本研究發現了另一個群體,這個群體往往不會持續關注事件,但是自主性比較強,例如這三個變量各自得分較高的10個用戶里面轉發微博數量都很低,而且發布的微博字數很長且含法律詞匯較多,在對他們的原數據進行查閱后發現這些人的長微博往往對事情分析比較深刻且單條微博轉發量很高。

所以,本研究再次得出結論:對于此類帶有沖擊現行社會體制(越軌行為)的事件中,一部分人訴諸情感,大量發布微博且持續關注但是對事件的分析缺乏深度;另一部分人往往不會持續關注也不會大量發文但是會針對此事件進行深度的反思。

在社會學中,第一類人被稱為初級越軌者,該類型的越軌者往往具有盲從的心理,他們不會主動發表意見,也不會對越軌行為本身進行深入思考;第二類人被稱為次級越軌者,該類型的越軌者往往比較理性,會對越軌行為本身進行深入地思考且具有獨立自主的判斷能力。

另外,從有高轉發量的原創微博數據中,或者從微熱點給出的2018/8/27-2018/8/28報告中的核心傳播人中,本研究都很難分析出該微博主體的人口統計學變量的集中特征。

4.3 問題三研究結果

本問題第一需要梳理整個事件的發生過程,發生過程表見附錄C;第二個需要對時間進行切片,本文綜合考慮研究效力和計算復雜度,決定以每12個小時為單位對時間進行切片,時間切片表見附錄D。

接下來,本研究對民眾微博、官媒的微博以及商業媒體的微博進行動態演化主題模型分析,并綜合各方面因素在每個時間切片中取重要度排在前15名的主題進行分析,并按照上文的方法計算Jaccard距離。

其中,官媒、商業和民眾三欄的12個時間片的Jaccard距離為相鄰主題之間的平均值。符號(tn,tn+1),(tn, tn),(tn+1,tn),分別代表兩類微博主體前一個時間切片和后一個時間切片的Jaccard相關系數或者是相同時間切片的Jaccard相關系數。例如,(官媒tn,民眾tn+1)就是計算官媒在tn時間切片和民眾在tn+1時間切片的主題相關系數。

這里的主題詞是以文本的形式而非數值的形式出現的,所以使用Jaccard距離能夠有效的適應文本數據的相似性度量問題。

表二 各個微博主體的動態主題演化表

主要結論如下:

第一,從主題演化的穩定性上來看,官媒是最為穩定的。因為在不考慮其他主體的情況下,官媒的相鄰時間切片的主題的Jaccard距離為0.63,高于商業媒體的0.56和0.44。這個數據同時也說明民眾的話題討論的演變幅度很高,這與第一部分中民眾善于引申的結論相符合。

第二,從相關性上看,媒體對民眾具有一定的議程設置能力。因為從媒體與民眾交叉時刻的主題相關性上看,(tn, tn+1) >(tn, tn)>(tn+1, tn)。

第三,官媒的議程設置能力最強。這與官媒在此類事件中具有在采訪權方面的優勢有關。

4.4 問題四研究結果

因為民眾微博平均轉發量只有1.75條,所以轉發量和評論量不能很好地反應民眾微博的影響力,所以在附錄G中的表格中,本研究并沒有分析轉發量和評論量,但是僅從該表格中就可以得出結論:民眾中倡導“判決獨立”的呼聲并不是很高,從微博數量上看占比極低。

如果將倡導“判決獨立”視為一種反越軌的行為,這說明民眾的反越軌行為是失敗的。

根據附錄H,可以看出官媒和商媒對于“判決獨立”這一話題的反應是滯后的,其中官媒直到第5個時間切片才作反應,商媒直到第3個時間切片才開始作反應。

但是根據中位數的比較,不難發現,盡管官媒和商媒發文量少但是其轉發量和評論量遠遠高于那個時間段其他類型的微博,這個數字一方面說明官媒和商媒在通過輿論實施社會控制方面具有強大的影響力,另一方面也體現了很多民眾想借助官媒和商媒表達自己聲音的意愿。

五、結論與討論

通過以上分析,本研究得出結論,在此次的良性越軌事件中:

  1. 民眾在此次越軌事件中更多表現出對官方媒體和商業媒體內容的多元化與對抗性解讀;
  2. 面對此次越軌行為,訴諸情感的人特征為發文數量多,關注持續時間長但是對事件的司法意義缺乏實質性分析;訴諸理性的人的特征為發文數量少,以原創居多,關注持續時間短,但是單篇文章長且分析深刻;
  3. 媒體對民眾的議程具有一定的設置能力且官方媒體的議程設置能力最強;
  4. 民眾支持“判決獨立” 的反越軌行為總體上失效,媒體對于“反越軌”話題有較強的影響力,但并沒有影響輿論的整體趨勢。所以在今后有類似事件發生的時候,社會管理者一方面應更加重視民眾中次級越軌者的的輿論,吸收其中的合理化因素;另一方面要積極發揮媒體尤其是官方媒體輿論引導和社會控制方面的作用,防止良性越軌向著惡性越軌轉化。

但是本研究也有其局限性:

第一,本研究缺乏跨平臺數據分析,所以無法準確地分析輿論爆發的時間;

第二,本研究在多類型微博主體的演化模型的交互關系分析中缺乏嚴格的因果關系分析,這使得結論的精度有待于進一步提高。

第三,本研究的編碼員數量過少,導致對于主題的標注的正確性有待于進一步提高。

附錄A 對各類型的主題的標注框架

圖一?對各類主題標注的總體框架

圖二?官方媒體(包括各地司法和行政管理部門的官方微博)的標注表

圖三 商業媒體的標注表(帶嘆號表示和官方媒體不同)

圖四?民眾微博的標注表(帶嘆號表示為該類特有的主題)

附錄B 前100個民眾類的主題中個標注主題的頻數分布

附錄C 昆山龍哥反殺案的事件過程表

表三?昆山龍哥反殺案的事件過程表

附錄D 動態主題演化分析的時間切片

表四?動態主題演化分析的時間切片

附錄E 民眾類微博各個變量top10微博個體

表五?發布微博數量top10

表六?原創微博數量top10

表七?轉發微博數量top10

表八?所有微博平均長度top10

表九?所有微博含司法詞匯平均數量top10

表十 首尾兩條微博時間間隔top10

附錄F 民眾類微博各個變量相關性分析

圖六??民眾類微博各個變量相關性分析

附錄G 民眾類微博中“判決獨立”主題在個時間切片上的發文數量與占比

表十一 民眾類微博中“判決獨立”主題在個時間切片上的發文數量與占比

附錄H 媒體類微博中“判決獨立”主題在個時間切片上的發文數量、轉發量和評論量與中位數的比較表

表十二:媒體類微博中“判決獨立”主題在各個時間切片上的發文數量、轉發量和評論量與中位數的比較

文章基礎數據來源:新浪微熱點大數據研究院。

 

本文由 @數據鍋 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 想告訴我們什么?

    回復
  2. 不知所云

    來自江蘇 回復