以《大秦帝國之崛起》為例,來談大數據輿情分析和文本挖掘

16 評論 69027 瀏覽 52 收藏 50 分鐘

本文作者將以《大秦帝國之崛起》作為分析對象,來詳細闡述在大數據時代數據分析會涉及到的全網輿情分析、微博傳播分析以及文本挖掘。

今年開年,拖延上映的《大秦帝國之崛起》(以下簡稱為“崛起”),終于在劇迷的千呼萬喚中播出。

這部根據孫皓暉同名小說改編的電視劇是“大秦帝國”系列的第三部,首部《大秦帝國之裂變》,第二部《大秦帝國之縱橫》分別于2009年、2013年播出,均獲得不錯的口碑,第三部《大秦帝國之崛起》因為上面的原因而補拍,直到今年年初才在央視開播。

本文將以該劇作為分析對象,來詳細闡述在大數據時代數據分析會涉及到的三個“子課題”:

  • 全網的輿情分析:基于全網媒體或網民關于該劇的探討,進行“Social Listening(社會化聆聽)”,了解該劇整體口碑概況
  • 微博傳播分析:基于新浪微博某條對于該劇具有重大影響力的微博的傳播情況,了解該條微博的傳播規律,互動粉絲的畫像,以及水軍的辨識
  • 文本挖掘:通過對該劇相關非結構化文本數據的分析,了解其獲得觀眾較高認可的原因

在接下來的分析中,筆者將結合分析工具(新浪微輿情、頭條媒體實驗室、Python、Gephi等)、分析思路(分析角度和分析流程)、業務知識(對該劇的了解和原著小說的認知),來談談一個完整的數據分析case如何完成,上面所涉及的3個子課題是本文分析的重點。下圖是本文的主要內容和文章結構:

1“崛起”的全網輿情分析

1.1 全網關注情況

(1)“崛起”的全網關注度走勢

因為該劇播出的時間段是2017-2-9~2017-3-6,故筆者選取了在該劇播出前后略有延展的時間區間,以便觀察這段時間內關于該劇的全網信息量走勢。

大秦帝國之崛起全網關注度走勢圖(2-1~3-13)

從全網總體的關注度來看,在電視劇播出前的關注量較少,而在電視劇播出期間的關注度(有關該劇的網絡信息量)陡然上升,在播出的第一天(2017-2-9)關注度就出現了明顯在上升。在該劇在播出結束后(2017-3-6),信息量逐漸減少,呈下降趨勢。

(2)“崛起”的全網關注度來源

從各信息發布渠道的表現來看,該劇在微博(新浪微博和騰訊微博)上的信息量占據主導地位,“二次崛起”后的微博仍是娛樂影視的主陣地,是粉絲與主創團隊進行互動的首選。下圖是“崛起”的全網信息量來源構成。

除去微博的信息之后,則可以看到除微博(新浪微博和騰訊微博)以外哪些信息渠道關于該劇的討論量較多。

由此可以看出,新浪博客、百度貼吧這樣的泛娛樂化社區關于該劇的討論也頗多,前者濫觴于明星入駐,是全國最主流,人氣頗高的博客頻道之一;而百度貼吧是全球最大的中文社區,是“粉絲文化”的催化劑。百度貼吧的迅速走紅,是與“粉絲”及“粉絲文化”的流行緊密相關的,而在“粉絲文化”的發展過程中,百度貼吧也起到了重要作用。

1.2 全網關于“崛起”的關注點

(1)“崛起”的全網信息形成的關鍵詞云

以下是全網關于“崛起”的文本信息的關鍵詞提取,總計有60個,這些關鍵詞來自于媒體報道,抑或用戶UGC評論,從中我們可以發現網路上關于該劇的討論集中在哪些關鍵點上。

從上圖中可以看出,除了本劇的片名—“大秦帝國”以外,還有一些比較反映該劇特征的詞匯,根據筆者對該劇的了解,特挑出其中主要的兩類詞匯:

  • 劇集相關:“收視”和“收視率”(在無大規模宣傳的情況下,收視率一路走高)、“拍戲”、“張博”(飾演秦昭襄王嬴稷的演員)、“導演”、“劇本”、“創作”、“花絮”、“創作者”
  • 該劇的意義:“文化”、“歷史”、“陜西”、“國家”、“文明”、“秦國”、“正劇”、“大秦”,(這類詞匯能在一定程度上代表該劇想要表達的價值觀—居今之世,志古之道,所以自鏡,拒絕戲說,尊史重實)

(2) 與“崛起”相關的關聯詞分析

全網事件的熱度信息關聯詞分析,它是通過系統自動運算找出事件核心詞、并計算出與核心詞同時出現關聯度最高的高頻詞,也就是與核心詞共現頻率最高的詞匯(關于“共現”的原理介紹,請看《如何用數據分析,搞定新媒體運營的定位和內容初始化?》的第三部分)。

假若讀者看過該劇,從上面的關聯詞即可看出,該劇的“正劇”屬性確鑿無疑,是一部獨具匠心的佳劇!

(3)與“崛起”相關的熱門文章

這里的關于“熱門”文章的定義主要是通過三個維度綜合得出,即閱讀量、轉發量和評論量的綜合評價。

上面有7篇個熱門文章,它們在全網信息中的綜合得分(閱讀量、轉發量和評論量)最高。從這幾篇文章的標題可以看出,它們主要以預告即將播出的劇集的劇情為主,關于劇中主要人物的出場及情節預告居多,由此可見該劇的關注度較高。

1.3 關注網民的人群畫像

以下數據來源于選自“頭條媒體實驗室”,基于今日頭條7億累計激活用戶,7800萬日活用戶(截至2016年12月底)的海量行為數據及文章數據。鑒于今日頭條龐大的用戶數量,對其相關人群進行分析可以起到“管中窺豹”、“一葉知秋”的效用。如果該用戶點擊并閱讀跟“大秦帝國之崛起”影視相關的文章,則判定該用戶對該劇感興趣。

(1) 關注網民的性別滲透率及年齡滲透率

此處,用滲透率(度)來表示用戶對特定事件關注度的比例,而非絕對值。有可能出現的情況是:一個人口稀少的地區有一百個人的人關注了某事件,相比一個人口大省有一萬人關注該話題,計算得到的滲透率(度)可能更高。

以下是這兩類滲透率的計算公式:

  • 性別滲透率:某性別用戶對關鍵詞的關注度/全網該性別用戶總關注度
  • 年齡滲透率:某年齡段用戶關鍵詞的關注度/全網該年齡段用戶總關注度

從上圖可以看出,“崛起”的男觀眾要多于女觀眾,當然這也在預料之中。年齡方面,青年群體(18-30)對該劇的熱衷程度要比想象中的高,說明在當今這樣一個盛行“宮斗撕逼瑪麗蘇”、“手撕鬼子褲腰藏雷”和“玄幻科幻架空歷史”的戲說歷史、全民娛樂時代,大家還是蠻希望有良心、有匠心、不浮躁的優秀劇集出現,并不是“劣幣驅逐良幣”或者是一味的迎合大眾口味的“糙劇”。

(2)關注網民的地域分布

意料之外,情理之中,這部主創團隊(原著小說作者、導演、制片人)全部是“秦人”(陜西人)的影視劇,陜西地區的受眾關注度(閱讀量、轉發量、評論量等)最高。

“大秦帝國”系列電視劇,展現了一幅波瀾壯闊的圖景:

在一個熱血的時代,一個積貧積弱的偏蠻小國由幾代秦國人奮發圖強,秉承著“赳赳老秦,共赴國難,血流不干,誓不休戰”的大無畏精神,歷經磨難終于實現大國夢。

出于對祖先的崇敬和身為秦人后裔的自豪,陜西地區的網民對于該劇的關注度高不足為奇。

(3) 關注網民的興趣圖譜

該部分度量了關注“崛起”的受眾的整體興趣情況,同樣是根據他們閱讀文章的類別(如“科技”、“歷史”等)來進行判斷的,以此為指標對各興趣類別在關注該話題的人群中從高到低進行排序。

“用戶興趣”的計算公式:

某興趣類別的用戶對關鍵詞的關注度/某興趣類別用戶總關注度

在這里,興趣圖譜分為3層,越往下分則越細致。結合上面的年齡、性別和地域因素,從這些興趣圖譜中,我們能得到關于受眾人群更為深層的洞察。

通過上面對受眾興趣圖譜層層遞進的“鉆取”,我們可以看到,他們主要的興趣有“國際足球”、“中國古代史”、“電影”、“中國足球”、“NBA”、“購房”和“法律”。結合先前的2個人群畫像維度,可以判斷出喜愛《大秦帝國之崛起》的人群是一些酷愛歷史(尤其是中國古代史)、和運動,且具有一定經濟實力的中青年群體,他們具有較高的文化素養。

2“崛起”的熱門微博傳播分析

在前面的全網輿情分析中筆者有提到,該?。ㄆ鋵嵈蟛糠钟耙晞〗允侨绱耍┰谖⒉┥系穆暳繕O高,所以筆者在這一部分著重描述下它在微博上的聲量表現。

其實,造成微博上聲量較大的原因,絕大部分是因為用戶參與轉發或是評論了某條微博,每一條轉發和評論都被視為一個用戶UGC。而微博文本每天13萬的日發博量和短視頻每天的32萬日發布數量,這兩方面每天形成的內容體量是相當龐大的。(新浪微博2016年年終數據)

又因為,微博上“注意力資源”分配極不均勻,少數大V博主擁有龐大的粉絲資源,他們發布的內容往往能引起微博上廣大民眾的討論,能造成極大的影響力。

鑒于此,筆者選擇了微博上一個關于影視娛樂的自媒體大v—“low君熱劇”,該賬號曾傳播過一條跟“崛起”相關的微博,用戶互動較為活躍,權當“解剖麻雀”之用。

筆者選取了一條帶視頻的微博,下面的播放量、轉發量、評論量和點贊量都較為可觀。可以作為微博傳播分析的一個例子。

以下關于該條微博的傳播分析,數據來源及相關可視化呈現皆來自于新浪微輿情的微博傳播分析(微分析)功能模塊。

2.1?傳播概況

截至分析時間03-18 11:50,@low君熱劇?的微博共收獲轉發數13,393次(其中有效轉發10,576次)、 評論數2,209條,點贊數29,646個。

此外,該條微博的覆蓋人次為20,260,770,包括原創者(也就是“low君熱劇”)和轉發者的粉絲數的疊加,當然也免不了重復計算,但整體的傳播效果是驚人的。注意,這是沒有排除水軍的數據。

內容敏感度為0.27%,也就是說,關于該條微博的用戶評論中僅有0.27%的評論是呈負面的,這個量很小。

值得注意的是,原創者“low君熱劇”自身是此條微博的關鍵傳播用戶,這個看起來有點費解,筆者會在下面有詳述。

2.2?轉發評論趨勢

一條微博的傳播是有生命周期的。能夠十分清晰的觀察到該微博轉發、評論的發展趨勢,微博的互動及散播活躍與否,以及處于生命周期的哪個階段(引發期、醞釀期、發生期、發展期、高潮期、處理期、平息期和反饋期),對于及時、準確研判事件及輿情走向起到至關重要的作用。

從上圖可以看出,該微博于03-17 12:05發布后,于03-17 12:30、03-17 23:30達到轉發、評論高峰,轉發峰值516條、評論峰值34條,此后微博傳播速度逐漸降低。

同時,意見領袖也是在該條微博的傳播高峰期進行活躍的,圖中深黃色的圓圈即代表它們引起的轉發量。

2.3?傳播層級

轉發層級可以看出某個微博傳播滲透力的強弱,層級越多,代表話題的滲透性和傳播性越強,微博粉絲的參與度也就越高。

本條微博的傳播層級為5級,在傳播深度上一般,滲透力不足,說明本話題以及該劇屬于小眾圈子。

值得注意的是,在剔除掉水軍及僵尸粉之類的用戶后,該條微博的覆蓋人次變更為18,070,952,跟初始覆蓋人次相差了100多萬的人次數。

在這里,原創者“low君熱劇”有重復出現多次,這是為什么呢?請接著往下看。

2.4?傳播路徑

微博傳播路徑分析是微博傳播分析中的重中之重,分析微博傳播路徑圖能發現其中的關鍵傳播樞紐節點(意見領袖)和識別傳播質量。

下圖是傳播路徑圖中常見的三種傳播節點類型。

聯系Malcolm Gladwell在《引爆點”(The Tipping Point)》中提出的觀點,原創節點、傳播節點和長尾節點非常接近其表述的、在某類流行事件中的三種主要角色:

  • 聯系員:就是那種“認識了很多人的人”,這類人把朋友當作郵票一樣地搜集,隨時與人保持聯系,這個角色可以把信息快速的散布出去。
  • 內行:就是那種“什么都懂的人”,他對某一種知識可以說是“達人”,不厭其煩地把相關的知識與朋友分享,但是卻沒有很好的說服力。這個角色對某件事情的狂熱,使他所發掘出來的事情成為有價值的。
  • 推銷員:就是那種“什么人都能夠說服的人”這種人沒有很深的知識,但是有特殊的能力讓見到面的人在短暫的時間就交付信任。這個角色能夠把內行發現的東西與人們以簡易的語言溝通。

稍有差異的是,處在長尾節點位置的粉絲,多半是被動的接收者,傳播層級到他們這里基本戛然而止,但如果長期接收某一類事物信息,他們也會變成該事物的忠實擁簇,會轉變為聯系人或者內行。

從微博傳播分析系統上獲取傳播節點相關的數據之后,筆者利用復雜網絡分析工具Gephi,基于Fruchterman Reingold的力導向算法和Modularity Class的譜聚類算法,得到了如下能反映該條微博傳播路徑及傳播社群關系的微博傳播路徑圖。(Gephi詳細使用方法請參看《萬字干貨|10款數據分析“工具”,助你成為新媒體運營領域的“增長黑客”》)

從上圖可以看出,“low君熱劇”在該條微博的傳播過程中出現了很多次,而且其中呈明黃色的樞紐傳播節點也是本尊。那究竟它們是同一個賬號轉發了很多次呢,還是同名但不同賬號各自發布了一條信息呢?我們接著往下看。

調出關于傳播節點的基礎數據,得到下面關于本條微博TOP轉發20的列表。

從上表可以看出,在轉發數TOP20中,“low君熱劇”包攬了狀元、榜眼、探花和傳臚這前四名。第一列的的“發布微博ID”代表某個賬號將本條微博重新轉發,形成一條新的微博(ID)。因而,“low君熱劇”在本條微博的傳播中,總共發布了4次,將“聯系人”“內行”和“推銷員”的角色都過了一遍,而且二次轉發效果上佳,不得不說,只有這樣粉絲過百萬且活躍度極高的微博大v才能這么玩,而且玩的不亦樂乎!

2.5?互動粉絲畫像分析

筆者把傳播者分為兩類,即轉發者和評論者,將二者分別進行分析。

一般來說,如果沒有水軍操作的話,這兩類群體的屬性應該基本一致。評論者的互動意愿更強,且機器操作的難度較大。

(1)轉發者和評論者的性別分析

從上圖可以看出,轉發者和評論者的性別占比趨近一致,都是女性壓倒性的超過男性。貌似和該劇面向的群體不太一樣,不過,我們需要知道的是,“low君熱劇”平時發布的關于影視劇的微博之類繁復,像《大秦帝國之崛起》這種風格的影視劇不是主流,平時它的畫風是這樣的:

這樣就不難理解,為何歷史正劇互動的女粉絲較多,因為這個大v平時吸聚的粉絲多半是女性群體~

(2)轉發者和評論者的地域分布

從上圖看來,轉發者和評論者的地域分布差異較大,轉發者集中在東北黑龍江,而評論者主要集中在南方。聯系前面的傳播路徑分析,該條微博人為干預較為突出。

(3)轉發者和評論者的興趣標簽

從上圖可以看出,該條轉發群體和評論群體的興趣圖譜幾近一致—都是熱愛生活、喜好休閑娛樂的樂活一族。

綜合上述關于微博傳播分析的5個維度,本條微博的傳播有輕微人為干預,不是大面積的商業推動行為,微博傳播情況正常。

3 原著相關的文本分析

在本部分,筆者選取了《大秦帝國之崛起》相關的原著小說進行分析,即《大秦帝國之金戈鐵馬》。

與影視劇不同的是,原著小說交代了秦昭襄王嬴稷上位前的一段經過,比如秦武王討伐東周并舉鼎而亡,以及秦宣太后和嬴稷質于燕,等等。

以下筆者就從文本挖掘的角度來分析一下原著小說、觀眾影評等方面的文本分析。

不過,在進行正式的分本分析前,需要對原著小說文本進行預處理,也就是:

  • 詞匯替換:同一個人名的不同稱謂
  • 中文分詞:一個漢字序列切分成一個一個單獨的詞
  • 停用詞過濾:過濾掉2類“無意義”的詞匯:一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如’你’、’我’、’的’、’或者’、’而是’等;另一類詞包括詞匯詞,比如’想要’、‘打開’等,這些詞應用十分廣泛,對于揭示特定文本的含義的重要性意義不大

此外,還需要統一原著中的人名稱謂,將在文本中具有多個稱呼的人物統一為一個名稱,便于精準的統計人物出現的頻次及其相關關系。

人物名稱替換表見下表。

預處理效果如下圖所示:

3.1 原著小說的關鍵詞提取

筆者沒采取一般文本分析時所采用的詞頻統計,因為詞頻統計的邏輯是:一個詞在文章中出現的次數越多,則它就越重要。但筆者采用的是TF-IDF(term frequency–inverse document frequency)關鍵詞統計方法:它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

由此可見,在提取某段文本的關鍵信息時,關鍵詞提取較詞頻統計更為可取,能提取出對某段文本具有重要意義的關鍵詞。

以下是該原著小說的關鍵詞TOP300,筆者用電視劇的海報作為詞云輪廓,大家可以在詞云中看到關鍵的信息,和電視劇“崛起”做一下對照。

在關鍵詞TOP100中,基本上都是跟秦國/秦軍相關的詞,秦國君臣秦昭襄王嬴稷、秦武王、范睢、白起、魏冉和甘茂等;秦國的死對頭—齊國、趙國和楚國等;一些重要的他國人物,魯仲連、藺相如、廉頗、春申君和趙奢等…

等等,“魯仲連”什么鬼?電視劇里壓根沒瞧見哪!

這就涉及《大秦帝國之崛起》的原著小說和電視劇本身的差異了,它們的差別是顯而易見,甚至在第二部和第三部被“摒棄”出制作團隊的原著小說作者孫皓暉也說,“電視劇相較原著改編幅度太大,完全可以另外取個名字” 。

綜合來看,筆者認為,電視劇和原著小說不同之處主要集中在如下方面:

  1. 內容起始不同。原著中第三部以秦武王即位后發動宜陽大戰、通三川窺周室為開端,白起在其中嶄露頭角;而電視劇中將此部分并入了第二部,第三部直接從嬴稷親政之后開始。
  2. 關于甘茂的結局。在原著中,甘茂因為受到魏冉與宣太后的排擠,憤而離秦,投奔齊國,并為齊國獻策,最終因為齊王的昏庸而隱居山野;而電視劇中改為了嬴稷希望為甘茂求得一個善終,于是聽從了蘇秦的建議,暗中幫助甘茂在齊國謀得上卿之位。
  3. 關于白起的定位。在原著中,白起是本部的第一主角,白起所占篇幅超過任何一個其他角色,而本部的結束也幾乎是以白起身死為完結的。在迎立嬴稷的過程中,白起發揮了最主要的作用,同時也展現出白起行事風格的鮮明特色;而在電視劇中,白起的功能大為弱化,大多由樗里疾和魏冉代替,當然這可能跟主演白起的演員王學兵吸毒,補拍戲份太多而被迫刪掉一些戲有關。
  4. 對于蘇秦這個關鍵人物的處理。原著中,蘇秦原是第二部《國命縱橫》中的人物。原著按照《史記》和《戰國策》的記載,選用了更為傳統的“張蘇縱橫”之說,使得張儀、蘇秦處于同一時代背景,一人合縱一人連橫,在為我們揭開縱橫大戲的同時,也建立起張蘇并雄的雙子結構。;而在電視劇中,則采用了與原著完全不同的故事版本,遵從了于1973年在長沙馬王堆三號漢墓出土的帛書書,—《戰國縱橫家書》(成書要早于《史記》和《戰國策》)的記載——蘇秦主要活動時間在燕昭王時期,一生最重要的事跡,是以“間者”的身份,為燕滅齊。由此,蘇秦一改從前史書中“從約長兼佩六國相印”的威風凜凜,而變成一個城府極深、一心間齊、滅齊而憑一人攪亂戰國格局的“心機婊”。

不過,他在劇中關于“篤定”和“忠誠”的一段話很是經典,連同劇中虛構的一段戀情,體現了他“一生只奉一人主”和“此生若永如初見”的“從一而終”:

總的來說,電視劇中刪去了大量原著中的虛構人物和虛構情節,增加了大量史料中的人物和情節。這種做法無疑對原著的故事性有所破壞,但也增加了故事情節的可靠性和真實性,最大限度的還原歷史。但孰是孰非,還是留給書友們/劇迷們去自行判斷吧。

3.2 原著小說中的主要人物的社交網絡分析

根據上面的人名詞典,筆者構建了原著小說中的主要人物社交網絡圖譜,并對其中較弱的關系及人物節點進行了過濾。

上圖中,每個節點代表一個人物,線條代表人物之間的關系,相同顏色的人物節點代表他們之間有著較為頻繁的交往/聯系(或友或敵)。人物節點字體的大小所表征的是“Betweenness Centrality中介性核心性)”,該詞學術的說法是“兩個非鄰接的成員間的相互作用依賴于網絡中的其他成員,特別是位于兩成員之間路徑上的那些成員,他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用“,說人話就是—字體大的人物具有更大的人際關系影響,能接觸和影響的人物較多,而在小說中出現次數多的未必就是這類人物,這里的存在感需要以人脈和影響力作為基石。

從上圖中可以看出,在位56年的秦昭襄王嬴稷無疑具有較強的人際網絡關系和影響力,更大的人際關系影響:廣納六國賢才,頻繁與六國君王過招,合作連橫,翻手為云,覆手為雨,后面迫使六國君主尊他為天子,人際影響力不可謂不廣。

其次是趙武靈王—趙雍,這位開創“胡服騎射”的君王,北擊匈奴和胡人,并吞中山國,扶植了燕昭王和秦昭襄王2位君主也是開疆拓土,廣納賢才,在六國中擁有廣泛的人際網絡。

同樣的道理,“戰國四公子”中的平原君和春申君在六國中的聲望較高,人際資源豐沛。

當然,對于統帥趙、楚、韓、魏、燕五國軍隊伐齊的樂毅自不必說。其他人的情況也類似,無一不具有較強的人際網絡關系。

3.3 豆瓣上關于該劇影評的文本聚類和典型意見抽取

豆瓣電影是中國最大與最權威的電影分享與評論社區,收錄了百萬條影片和影人的資料,有2500多家電影院加盟,更匯聚了數千萬熱愛電影的人,因而這里關于影視劇的評論能具有一定的代表性和公信力。

如上圖所示,該劇在豆瓣上的評級較高,達到8.5分的分值,其中4星和5星評價站到整個評級里的84.6%,正面評價的比例相當高。

筆者抓取了豆瓣上關于該劇的18068條評論信息,按贊同數的多寡保留了前3000條具有代表性的評論。抓取的數據格式如下圖所示:

經簡單處理,用AP算法進行文本聚類得到如下圖所示的結果:

最后,AP算法自動將3000條評論劃分成43個類別。

更進一步,在文本聚類的基礎上進行典型意見挖掘,得到如下結果:

選取其中最具代表性的意見(也就是包含文檔數最多的意見),即為:

由上表可知,“豆油”們對于“崛起”的評價主要集中在以下幾個方面:

  • 該劇尊重歷史,是一部很不錯的歷史正?。?/li>
  • 該劇制作精良,還采用了比較真實的現場收音(現場錄音,有如下好處:最簡化音畫匹配問題;鼓勵演員情感真實到位;保留各種聲音與環境音的真實互動。),是一部良心劇;
  • 該劇演員的演技很贊,尤其是飾演秦宣太后/羋八子的寧靜。

3.4 《羋月傳》和《大秦帝國》中秦宣太后(羋月)的人物形象差異分析

因為這兩部劇中都涉及了中國歷史上一個有名的女人—秦宣太后,她是第一個自稱“太后”并開啟垂簾聽政的女當權者,且因其傳奇而又復雜的情感糾葛而引人注(ba)目(gua)。(注:因正史中并未提及“羋月”,史稱“秦宣太后”居多,故筆者在下面僅取后者)

因此,筆者想結合豆瓣影評的相關評論數據,來對《羋月傳》和《大秦帝國2、3》中秦宣太后的人物形象進行分析。

為此,筆者爬取了豆瓣上關于《羋月傳》、《大秦帝國之縱橫》和《大秦帝國之崛起》中涉及秦宣太后及其主演(孫儷、寧靜)的若干評論作為分析對象。

以下是關于孫儷和寧靜所主演的秦宣太后的評論的文本分析,可以在這張直觀的可視化效果圖上看到“豆油”們對這兩位演員出演秦宣太后方方面面的評價。

上圖中,對于2類評價文本分別按照“高提及率(Frequent)”和“低提及率(Infrequent)”進行了劃分。上圖若以橫縱軸的“Average”進行劃分,則可以分為4個象限,右上角的為2類文本提及率皆高的詞匯,左下角為二者提及率皆低的詞匯。左上和右下僅是二者之一高提及率的詞匯。

另外,藍色點陣代表的詞匯屬于對“羋月傳-孫儷”的評價,黃色點陣所代表的的詞匯屬于對“大秦帝國-寧靜”的評價,右上角的象限二者的評語趨于重合。

可以看到,大家還是對兩位主演的演技很關注,其次是劇中演員的討論:跟孫儷相關的春申君黃歇及其扮演者黃軒、惠文后及其扮演者馬蘇;寧靜這邊則是秦惠文王及其扮演者富大龍。

點擊“點陣”中的“宮斗”一詞,可以看到“豆油”們對2部電視劇及其演員在劇情“宮斗”方面評價的異同:

從上圖可以看出,孫儷主演的《羋月傳》延續了《甄嬛傳》中的宮斗情節,“豆油”們評價它“狗血”“狗尾續貂”、“臉譜化”等,負面評價比較多;而在寧靜所主演《大秦帝國2 3》評價中,“宮斗”的評價幾乎沒有,而且大家都會拿前者來做對照,“正劇”是大家對它的評價。

再將2類評論文本中的關鍵詞提取,做成主角所對應的的詞云,顯示如下:

從上面的詞云可以看出,“豆油”對于寧靜所主要的秦宣太后的評價最具代表性的詞是“霸氣”、“野性”、“正劇”“不莊重”、“良心”、“氣場”、“育子成龍”和“不怒自威”等,評價多為正面,認為寧靜主要的太后野性霸氣,且具有氣場、不怒自威。

從上面的詞云可以看出,“豆油”對于孫儷所主要的秦宣太后的評價最具代表性的詞是 “義渠君”、“浮夸”、“瞪眼”、“太假”、“春申君”、“綠茶婊”、“瑪麗蘇”、“矯情”和“宮斗”等,多為負面評價,且對其演技的評價不是很好。

從歷史上的記載來看,楚人介于華夏與蠻夷之間,立于東南西北之中,他們的習俗既有蠻夷之異,亦有華夏之同,具有極強的兼容性。楚人確信自己是日神的遠裔、火神的嫡嗣,由于日、火均為紅色,因而古時楚人富有激情和生命力,張揚不羈。而寧靜飾演的秦宣太后很符合這個特征,她之前還主演過《紅河谷》中善良而又野性、任性的丹珠,《戰國英雄呂不韋》的秦王嬴政的母親趙姬,以及《孝莊秘史》中熱情奔放的的大玉兒(孝莊),這些角色其實與秦宣太后這個角色有很多相同之處。與之相比,出演宮廷內斗局揚名的孫儷在角色塑造方面過于臉譜化,把這個角色演出了甄嬛的感覺。

在“崛起”中,雖然寧靜所飾演的羋八子霸氣十足,將帝王家的無情、殘忍演繹得淋漓盡致,但她是一個顧全大局,一心為國的女當權者,在電視劇片花末尾,更是展露出尋常母親的心疼與無奈:“為了愛他,我在他心里種下了一個冷血,可我不后悔?!?/p>

下面這句話是她教給秦昭襄王嬴稷的,被嬴稷銘記在心,并用刀將“王”字刻在手臂上:

3.5 原著小說中的若干關鍵詞的關聯詞分析

在最后,筆者把前面經過預處理得到的小說文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的相關性,而不僅僅是基于詞匯之間的共現關系。

筆者分別將劇中的“秦昭襄王”、“白起”和“宣太后”做了語義聯想,也就是于計算詞語之間的語義相似度,找出與之最為相似的TOP20詞匯。結果如下表所示:

從上表中可以看出,與秦昭襄王嬴稷最相關的詞是和他密切相關的人物,如宣太后、白起、王稽和魏冉等。而離自己最近的卻是“秦王”二字,但做秦王不易,連他自己也說:

這和毛主席的那句,“牢騷滿腹愁腸斷,風物長宜放眼量”有異曲同工之妙,不過這句話還有一層意思,作為深系國家命運的君王,要想成為雄主,就要對自己狠一點!

對于戰神白起,與他密切相關的是他的妻子荊梅,電視劇中為趙女趙曼,其次就是秦昭襄王。

說起這對君臣CP,前后相處的景況令人唏噓。

下面一個是秦昭襄王繼位之初,求教白起讀書之道和兵法之道的場景:

這樣的場景可以看出君臣之間的融洽、和諧,從中,我們也可以了解到白起用兵的獨到之處—不墨守成規,善于根據實際情況調整戰略部署。這也可以解釋為什么在后來的秦趙之戰中,白起能打破《孫子兵法》中”十則圍之,五則攻之”的兵法黃金原則,而采用50萬對50萬的“等量包圍”策略,從而贏得了決定秦國國運的關鍵一戰。

而最后,君臣之間落了個不歡而散的下場,曾經情同兄弟的君臣關系跌落到了谷底,變得勢如水火……

這幾句從“成業(成就霸業)”到“得賢(獲得賢才)”、“用賢(任用賢才)”以至于“任賢(信任人才)”,層層揭示,步步深入,最終得出成業的關鍵在于信任賢才的結論,也暗示了白起對于秦昭襄王對自己赤誠之心存疑的不滿。

而秦宣太后最為相近的幾個詞,有自己的兒子嬴稷、同母異父的弟弟兼重臣的魏冉、王族兼重臣的樗里疾、以及后來直接導致她失去權力的丞相范睢。

值得注意的是,這里和秦宣太后最為相關的也是“秦王”一詞,不過這里的秦王包括三代秦王—秦惠文王、秦武王和秦昭襄王。

最后,按照“或、與、非”的布爾邏輯,進行“與‘秦國’-‘趙國’有關,但和‘楚國’無關”的最相關的TOP20的詞匯的計算,得到如下圖所示的詞匯逆序排列。

從上面的TOP20相關詞可以看出,秦趙兩國之間還夾雜著魏國和韓國,后二者與趙國合稱為“三晉”,緣起于戰國初期韓、趙、魏“三家分晉”。而二國傾舉國之力進行正面交鋒的導火索正是“上黨之爭”,上黨的得失直接關乎趙國國都邯鄲的安危,因而趙國不得不接手這塊“燙手的山芋”。同時,“上黨”也是秦國“東出”的戰略支撐點,是必須攻克的“要塞”,如此才能逐鹿“中原”,合“六國”。

4 結語

看完這部歷史正劇,筆者自己的有這樣的感慨:

這部說“廟堂的事”的歷史正劇,其演員功力深厚,塑造的人物形象飽滿。宣太后,魏冉、蘇秦、田文、楚王,這些叱咤風云的老江湖,聯手教會了秦昭王如何在險惡中生存,在危機中壯大,而秦昭王具有強大的學習能力,迅速汲取著別人的經驗和教訓,逐步從一個政治手腕稚嫩、備受掣肘的君主成為一個雄霸天下、獨當一面的雄主。在這個過程中,他學會了如何在不利的局面下運用謀略,從而實現自己的目的,奠定了秦國崛起東出的霸業。

參考資料

1. 數據來源:新浪微輿情(熱度指數查詢、全網事件分析、微博事件分析和微博傳播分析)

2 .數據來源:頭條媒體實驗室

3.“大秦帝國之崛起”百度百科官方詞條

4.《<大秦帝國之崛起>小說電視劇與真實歷史有何差異?》,觀察者網的博客

5 .文本數據來源:《大秦帝國(第三部)之金戈鐵馬》

6.《孫皓暉:要以歷史實踐為標準評價歷史人物》,光明網

7.評論數據來源:《大秦帝國之崛起 (2017)》影評

8.Malcolm Gladwell.《The Tipping Point》

#專欄作家#

作者:蘇格蘭折耳喵(微信公眾號:運營喵是怎樣煉成的),人人都是產品經理專欄作家。數據分析愛好者,擅長數據分析和可視化表達,喜歡研究各種跟數據相關的東東。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 大佬您好,請問可以分享一下第三部分小說文本挖掘的代碼嗎,僅用于學習,謝謝??

    回復
  2. 厲害了

    來自浙江 回復
  3. 厲害了……

    來自廣東 回復
  4. 成功圈粉low君熱劇 ??

    來自福建 回復
  5. 屌屌的·····················

    來自廣東 回復
  6. 給你個大拇指。大學時候一口氣通讀了《大秦帝國》,不過電視劇一集都沒有看過

    來自廣東 回復
    1. 電視劇在某些方面更尊重歷史,但故事性有所削弱

      回復
  7. 我想知道用了哪些分析工具,效果都好贊。

    來自北京 回復
    1. 新浪微輿情(熱度指數查詢、全網事件分析、微博傳播分析),頭條實驗室(熱度查詢、事件監控),Python(關鍵詞提取、爬蟲、文本聚類、典型意見挖掘、自定義詞云、詞向量)

      來自上海 回復
  8. 高手

    來自廣東 回復
  9. 來自北京 回復
    1. 偶遇熟人啊

      來自內蒙古 回復
  10. 高手

    來自上海 回復