萬字干貨|10款數據分析“工具”,助你成為新媒體運營領域的“增長黑客”
不必羨慕什么“技術流”,即使是不懂技術和復雜數學知識的你,照樣能成為新媒體運營領域的“增長黑客”!因為創造性思維和強烈的好奇心會給你帶來好運的,等到工具、技能和思維三者融會貫通的時候,就會像獨孤求敗那樣——“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!
1?成為新媒體運營領域的“增長黑客”
1.1 一般意義上的“增長黑客”
“增長黑客(Growth Hacker)”,這個近幾年來風靡中國互聯網界的新興概念,濫觴于美國硅谷互聯網創業圈,國內則是由范冰首先引進,他的著作《增長黑客:創業公司的用戶與收入增長秘籍》使這個概念深入人心。
結合國內外關于“增長黑客”的表述:“增長黑客”是以數據驅動營銷、以市場指導產品,通過技術手段貫徹增長目標的一群人。這就需要他們既了解技術,寫得了代碼;又能了解人性,能捕捉用戶的心理感受和真實需求;最重要的是,他們經常能突發奇想,發揮創意,大開腦洞,以小的投入獲取較多的用戶和收入。
一言以蔽之,“增長黑客”就是具備各種跨界技能,可以利用各種巧妙的手段以極小的成本獲取大量用戶,實現最終的收入增加。
“增長黑客”讓那些資金不夠充裕、前期資源緊缺和初始用戶匱乏的初創型互聯網初創團隊看到了“四兩撥千斤”的希望,小投入也能辦大事。
“增長黑客”的一個很好的理念,但它在不同的互聯網領域有著不同的形態,具體的實現手法也不盡相同,比如在新媒體運營領域。
1.2 新媒體運營領域的“增長黑客”
新媒體是跟隨互聯網興起的一個新興媒體形態,它已經在很大程度上顛覆了以往的紙質刊物、廣播及電視等傳統媒體,重要性不言而喻。關于它的概念和內涵,筆者不想多說,網上有很多的詳細介紹。在這里,筆者認為新媒體最為重要的一個特征是:
人人都可以是信息的生產者,人人也都是信息的傳播者。
這意味著無論是誰,包含企業、機構還有個人,都有機會成為這個新媒體時代的成功者。咪蒙、一條、十點讀書即是例證。
然而,隨著中國的互聯網時代進入下半場,新媒體行業也從野蠻生長的時代進入“弱肉強食”的“叢林時代”,常規的新媒體運營手段(包括內容、展現形式及推廣方法等)已經很難從用戶增長緩慢和收入增長停滯的困境中突圍出來。
寫到這里,筆者不由得想到兒時看過的動漫——《數碼寶貝》中的主人公身邊各類可愛的小精靈,在遇到危急情況時會進化,由“成長期”進化到“成熟期”、“完全體”,甚至是“究極體?”,適應性和攻擊力呈現指數級的提升,足以在危如累卵的逆境中打敗強大的敵人,反敗為勝。
與此類似,廣大新媒體從業者們在這個時候,也需要“進化”,完成華麗的轉身—采用精細運作、量化分析的科學手段去進行新媒體運營,以適應這個足以革新我們思維觀念的“大數據時代”,而“增長黑客”正是一劑良方。
從前面對“增長黑客”的介紹中,我們可以發現:
“增長黑客”是一個多面手的角色,需要掌握跨領域的知識,其中最為核心的技能即是懂技術、精通數據分析。
然而,技術(碼代碼、編寫程序等)和數據分析(數學知識和BI軟件操作等)對于很多做新媒體運營的小伙伴來說,是十分棘手的兩樣事物:很多從事新媒體運營的小伙伴是正兒八經的文科生畢業,文案和排版方面,他們可以說是“長袖善舞”,但技術和數據分析卻可能是他們的“夢魘”。
鑒于這種情形,筆者提倡“人+數據驅動思維+工具”理念—以人為本,從運營者自身的知識結構出發,以數據/量化思維作為方法論,用工具輔助運營,從而做到揚長避短,把自己的精力集中在重要的事情上。
筆者在這里特意收羅了10幾款跟數據分析有關的工具,以彌補技術小白和數據分析小白技能上的匱乏,而且掌握它們不需要很懂技術,連數據分析這項技能也能借助它們輕松get。
值得注意的是,本文所要介紹的工具,并不是狹義上的“工具”,如可視化工具、文本分析工具和事件熱度趨勢/預測分析操作類工具,還包括數據新聞這種廣義上的新型信息載體;更為重要的是,他們分別代表著四種思維/觀念—重視非結構性數據、科學化預測、信息的具象化呈現以及用數據講故事,這些“工具”都是為達到、完成或促進新媒體運營效果的有利武器。
如下圖所示,以下是本文的行文結構:
新媒體運營的“增長黑客”數據分析工具箱
2?文本分析工具
文本分析的重要性筆者已經在之前的兩篇文章中有過論述,詳見《數據運營|數據分析中,文本分析遠比數值型分析重要?。ㄉ希?/a>》《在運營中,為什么文本分析遠比數值型分析重要?一個實際案例,五點分析(下)》,故本文不做贅述,直奔工具應用的主題。
2.1 NLPIR在線系統
NLPIR,即“自然語言處理與信息檢索共享平臺”的英文縮寫, 打開該網址,即可進入主界面—“語義分析系統”,顧名思義,它是一個在線的中文語義分析工具,因為非商業化,它對處理文本的篇幅大小也有限制,只能處理3000字,可以給熱衷于文本分析的小伙伴過過癮,但要想用于商業目的,那只能呵呵了。
NLPIR在線系統的首頁
上圖中間部分的11個圓圈即是該系統的所有功能,但其中有幾個只是掛出來,目前還未實現,結合新媒體運營工作中的實際需求,筆者只介紹其中幾個比較有實用價值的功能模塊。
以下以《<你的名字。>破5.5億元日媒:和中國聯手有錢賺》這則新聞作為測試文本,筆者來給大家介紹下這個系統中的實體抽取、詞頻統計、文本分類、情感分析和關鍵詞提取這5個比較有實用價值、且準確度較高的功能模塊。
2.1.1?實體抽取
NLPIR中的“實體抽取”功能模塊可以智能識別出測試文本中出現的人名、地名、機構名、媒體、作者及文章的主題關鍵詞,這是對語言規律的深入理解和科學預測,它提煉出的詞語不需要在詞典庫中事先存在。
實體抽取的圖表效果支持力導向圖和弦圖這兩種形式,如下圖所示:
測試文本“實體抽取”的2種呈現形式
上圖中,從“文本”這個一級類目中,分別分出了“關鍵詞”、“地名”、“時間”這3個二級類目,由此能大致判斷出測試文本中包含的事件元素,如主題是關于電影的,涉及國家(地區)間的對比,還有縱向時間維度的分析,一些關鍵詞能讓我們把握文章中重要的詞句。
2.1.2?詞頻統計
在一份給定的文件里,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現的次數。
在文本分析中,詞頻統計是較為常規的、同時也是最為重要的一個環節,它用來評估一個詞對于一個文件或者一個語料庫中的一個領域文件集的重要程度。
NLPIR只展示了名詞、動詞、形容詞這3種開放詞類,這個3個此類也是一段文本中最為重要的3個部分:
- 名詞介紹文章中的各個主體,能讓我們知道文本描述的對象是誰;
- 動詞表征各個主體的動作和行為,能讓我們知道關于主體發生了什么;
- 而形容詞則能描述主體及動作/行為的特征,能讓我們知道主體及其行為/動作的性質、狀態、特征或屬性。
NLPIR的詞頻統計只展示了上述詞類的Top 10結果,以折線圖和條形圖的形式進行展現??戳讼旅娴脑~頻分類展示,聯想文章標題,我們很自然地了解到《你的名字?!愤@部電影在市場上獲得了不錯的業績,引發中日媒體的廣泛報道和關注……
測試文本的詞頻統計呈現
2.1.3?文本分類
NLPIR“文本分類”部分目前所展示的類別只是新聞的政治、經濟、軍事、交通等,分類有待擴展和細化。
NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。此外,它還可以實現文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應用于品牌報道監測、垃圾信息屏蔽、敏感信息審查等領域。
然而,從測試的效果來看,這個功能模塊的分析效果還不甚準確,它沒有“娛樂”這一分類,但起碼也應該劃入“其他”這一類中。
測試文本的文本分類結果呈現
2.1.4?情感分析
NLPIR的“情感分析”提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。大類上,“情感分析”部分分為“正(面)”和“負(面)”這兩大類情感,這是內層;在外層,兩個大類又分為“樂”、“好”、“怒”、“哀”、“懼”、“惡”、“驚”7中細分的情感,這也就是大家常說的“七情六欲”中的“七情”。
目前正負面的判斷已經較為成熟,但鑒于漢語的博大精深和詞匯語義(用法)的波譎多變(反諷、貶義褒用、語境變化等),細分情緒的判斷準確度還值得觀察。
測試文本的情感分析結果呈現
觀察上面測試文本的情感分析效果圖,再比對原始文本,這個判斷大致上是準確的,但負面的部分應該比實際的占比小,尤其是“惡”這個部分—筆者并未發現有出現厭惡的語句和詞匯。
2.1.5?關鍵詞提取
這里的關鍵詞提取和前面的詞頻統計有一定的聯系,但二者的算法(實現方法)是不一樣的:
- 詞頻統計:詞頻統計的是一個詞在文章中出現次數,出現的次數越多一般越重要;
- 關鍵詞提取:關鍵詞提取則是依據TF-IDF(term frequency–inverse document frequency,詞頻–反轉文件頻率),用以評估一個詞對于文本內容的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。比如,“如果”、“也”、“你們”等詞匯,他們出現的頻次很高,但它們的重要性就很弱。
測試文本的關鍵詞分析
從上圖中測試文本的“關鍵詞提取”中可以發現,這部分和“詞頻統計”部分既有重合也有明顯區分,原因就在于上述的算法不同。
值得注意的是,不論是“詞頻統計”還是“關鍵詞提取”,已經設置了“停用詞(stopwords)”,在進行上述分析的時候,自動的將那些無明顯意義的副詞、冠詞、代詞給去掉了。
2.2?文本挖掘工具
文本挖掘工具(注冊登錄后才可見)是一款免費的在線的文本分析工具,它可以對輸入的文本進行高頻詞分析、關鍵詞提取、情感判斷、實體識別、詞性分析、關鍵詞云和關聯詞的可視化展示。同時,本工具還為用戶提供了多種自定義設置,包括分詞模式選擇(3種)、自定義停用詞、自定義詞典、自定義中心關鍵詞(針對關聯詞圖)、數據導出(詞匯、詞頻、權重)。
更重要的是,高頻詞/關鍵詞分析的結果可以導出成excel格式的文件,便于后期分析和處理。
文本挖掘工具的產品主界面
值得注意的是,文本挖掘工具導出的excel文檔有三列:提取出的詞語、詞頻數、詞匯權重。后兩個指標,筆者已經在前面做過論述,不明白的小伙伴可以“倒帶”回去看看。
2.3 Tone Analyzer
Tone Analyzer是一款由IBM推出的、基于云計算的人工智能文本分析工具,能對電子郵件、博客文章以及手機短信進行感情色彩分析,以確定它的措辭是否如實地表達了你的憤怒、肯定、高興或者悲傷等感情。
ToneAnalyzer的主界面
這一用來幫助評估和改善文字溝通當中的語氣的服務目前尚處實驗模式,如獲成功,或將改變未來商家和營銷人員同消費者、客戶的溝通方式。
更重要的是,它可以應用到新媒體運營者的內容校正中來:
- 用來查驗文章內容的調性和風格,了解自己的文字給人留下的印象如何,以使公眾號的內容運營不偏離預設的定位。
- 幫助品牌運營者和內容輸出分析,撰寫何種風格的文案才可以引起受眾的共鳴。
Tone?Analyzer的評價系統包含三個維度,各個維度及其簡介如下圖所示:
Tone?Analyzer的評價系統的三個維度
以下是Tone?Analyzer的使用案例,大家可以從下面的幾個模塊中獲得對文字信息的洞察,這部分筆者不做詳述,感興趣的小伙伴可以去官網查閱文檔。
輸入文本信息和選擇分析類別
文本信息3個維度的分析結果
文本信息段落的逐行分析(附有標記)
3?熱點捕獲/趨勢預測工具
3.1?搜索指數型
這里的搜索指數型趨勢工具指的是,它們的數據絕大部分是基于用戶的搜索行為,即用戶搜索關鍵詞而形成的數據及其展示,有一定的預測價值,但缺點是并不能發現搜索行為背后的原因。
3.1.1 百度指數
關于百度指數的介紹,筆者僅貼出部分官方關于功能的介紹:
百度指數是以百度海量網民行為數據為基礎的數據分享平臺,它能夠告訴用戶:某個關鍵詞在百度的搜索規模有多大,一段時間內的漲跌態勢以及相關的新聞輿論變化,關注這些詞的網民是什么樣的,分布在哪里,同時還搜了哪些相關的詞,幫助用戶優化數字營銷活動方案。
關于詳細它的使用方法及一些關鍵原理,筆者在《尋找創業方向時,如何零成本用大數據獲悉市場行情?》有詳述,感興趣的小伙伴可以去看看。
3.1.2 微指數
(微博)微指數是新浪微博官方的數據分析工具,基于新浪微博的全量數據,通過關鍵詞的熱議度,以及行業/類別的平均影響力,來反映微博輿情或賬號的發展走勢。微指數分為熱詞趨勢、實時趨勢、(信息分布)地域解讀和(用戶)屬性分析4個板塊。
“熱詞趨勢”部分與百度指數的趨勢很相像,但它有一個更為有價值的地方—點擊趨勢曲線中的各個節點,會顯示出關注度排名靠前的3條微博,可以做到“知其然并知其所以然”。
微指數的熱詞趨勢圖
“實時趨勢”則反映該熱詞近一天的走勢情況?!暗赜蚪庾x”即該熱詞相關微博信息的地域分布情況。
最后一個功能板塊是“屬性分析”,這部分能獲悉關注該熱詞及其相關事件的人群畫像,有性別、年齡、興趣標簽比例和星座標簽比例這4個人群屬性。
微指數的“(人群)屬性分析”
這部分可以參看筆者之前寫的兩篇文章《當數據分析遭遇心理動力學:用戶深層次的情感需求浮出水面》、《如何用數據分析,搞定新媒體運營的定位和內容初始化?》,不失時機將其運用到實際的運營工作中來,而不是僅僅停留在人群屬性的分析描述層面。
3.2?現網信息型
現網信息型,顧名思義,就是該類工具的主要數據來源于現有的網絡信息(主要是基于社會化媒體的文本數據,詳情請參看《干貨|如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》),而不是基于網民的搜索行為,因而通過它可以找到熱詞或事件關注(量)發生波動起伏的原因。
一般來說,這類數據產品的典型應用領域在輿情領域(包括輿情監測、品牌口碑監測等),比如新浪微熱點(以前叫“新浪微輿情”)。
新浪微熱點的主頁
新浪微熱點—“熱度指數”產品頁面
以下是新浪微熱點這個大數據分析工具的介紹,我們能從中看到現網信息型熱度分析工具的基本原理:
“利用獨有的分布式網絡技術,對互聯網上輿情、口碑相關數據源進行完整采集,同時根據用戶預定的監控關鍵詞對全網數據進行補充獲取?!靶吕宋狳c”可以在很短時間內收錄到國內外重要網站、論壇、微博、微信公眾號、貼吧、博客等互聯網開放平臺的相關信息,通過中文智能分詞、自然語言處理、正負面研判等大數據處理技術對收錄到的信息進行處理并分析…
可以看出,現網信息型熱度分析工具的數據基于現有的全網信息搜集,并經過自然語言處理等技術對文本信息進行信息的“去粗取精”,從而有效把握事件的重要方面和影響因素。“
下面,筆者來詳述新浪微熱點的幾個很有價值的功能模塊—分別是熱度指數(包括熱度指數、傳播分析、口碑分析和微博情緒)、信息監測、事件分析(包括全網事件分析和微博事件分析)和微博傳播效果分析,它們可以很好的運用到新媒體領域,可以在熱點追蹤、內容規劃、受眾畫像分析和營銷分析方面給予運營者們以有益的指導。
3.2.1 (事件)熱度趨勢分析
在地震救援中,有一個概念叫做“黃金72小時”,它是地質災害發生后的黃金救援期。因為救援界認為,災難發生之后存在一個“黃金72小時”,在此時間段內,災民的存活率極高。
同樣,在新媒體內容運營追蹤熱點事件方面,也存在類似的定律,能在最短的時間內,把握觀眾所關注事件的發展走向和輿論傾向,因勢利導,就能成功的“借勢“。
新浪微熱點的(事件)熱度趨勢分析中有一個能反映事件關注度的一個數據指標—熱度指數,它的全稱是“網絡傳播熱度指數”,是指在從新聞媒體、微博、微信、客戶端、網站、論壇等互聯網平臺采集海量信息的基礎上,提取與指定事件、人物、品牌、地域等相關的信息,并對所提取的信息進行標準化計算后得出的指數。
熱度指數能客觀反映事件、人物、品牌、地域等在互聯網上的受關注程度。熱度指數所呈現的數值為0~100,數值越大,表明其網絡受關注度越高。
下面舉個栗子,拿前不久廣受關注的“淘寶被列入惡名市場名單”事件作為分析對象,來看看(事件)熱度趨勢分析的各個功能模塊是如何運用到新媒體運營領域的。
(1)熱度概況和熱度趨勢
從下圖的“指數概況”部分,我們可以看到,淘寶被列入惡名市場名單”在72小時內(當然也可以選擇24小時這個時間區間)的熱度同比增長達到62315%,表明互聯網上關于該事件的媒體報道和公眾評論信息出現驟增的情形,且指數有將近6%的增幅,幅度不大結合這兩個指標可以看出,在近72小時內該事件很火熱,且熱度呈現穩步增長的趨勢。值得注意的是,這里的“同比”和“指數變化”是針對此次查詢的72小時區間和上一個72小時區間的數值進行對比的。
在“熱度指數”部分,由時間軸和熱度指數軸構成的折線圖反映了近72小時內該事件熱度指數的變化趨勢,這個折線圖的分析意義重大,能起到預測事件未來熱度走勢的神奇作用。
在分析熱度指數的折線圖的時候,要注意從微觀層面和宏觀層面上的把握。在微觀層面上,要特別注意折線圖中比較重要的節點,特別是峰值節點,它代表其對應的時間點它的關注度較高,要注意發現事件爆發的時間規律;在宏觀層面上,要看整條折線的整體走向,是整體呈現上升趨勢,還是呈現關注度的下降趨勢,當情況屬于前者時,新媒體運營者們則可以繼續跟進事件的發展,接著“借勢”和“跟風”。
熱度概況及熱度趨勢分析
既然知道了事件熱度的峰值節點出現在哪個時間點,這時我們肯定想了解這些時間區間內事件關注度驟然上升的原因。還好,緊接著“熱度趨勢”,下方給出了其中最突出的峰值節點出現的原因,以重點信息聚類的方式呈現。
在下圖中,呈現的是12月23日 08時,達到24的峰值時的重點信息聚類。給出了這些熱門文章的標題和來源站點,點擊標題即可進入相應的網頁,查看源信息。
最突出峰值節點的信息聚類
這里需要強調的是,對于最突出峰值節點的重點聚類信息的解讀十分重要,因為這些文章閱讀數高,抑或是轉發量高,在某種程度上表明了公眾對于這些信息的認可度高,能代表一定的公眾輿論傾向。作為新媒體內容運營者來說,引導公眾看法難度太大,不是人人都能做成意見領袖的,能因勢利導的輸出順應公眾觀點的文章可能是上策。
(2)事件熱度信息的關鍵詞詞云
這里的關鍵詞云是由互聯網上各個渠道的海量信息進行中文智能分詞和自然語言處理所得,濃縮了關于該事件的TOP60關鍵詞,能在一定程度上反映出事件的各個要素。
詞語的大小代表該詞出現次數的多寡,也表明了該關鍵詞對于事件的重要程度如何。在進行內容組織的時候,可以考慮這些詞頻數高詞匯所代表的方面,如在“淘寶列入惡名市場名單”這一事件中,除了“惡名市場”、“名單”這些出現在標題之中的關鍵詞外,還有“加大力度”、“納入保護”、“知識產權”等關鍵詞表征的方面作為文章內容的著力方向。
“淘寶列入惡名市場名單”事件的關鍵詞詞云
(3)事件熱度信息的來源類型
“信息來源”部分中,反映出了事件信息的來源占比情況,比重較大的部分是需要運營者重點關注的渠道。
“淘寶列入惡名市場名單”事件的信息在“微博”這一信息渠道中的比重最多,其次是“網站”、“新聞”、“客戶端”等,具體的數據為:微博(49.32%)、網站(27.73%)和新聞(10.13%)。
“淘寶列入惡名市場名單”事件的信息來源分布
針對微博信息量為何占據如此大的比重這個問題,筆者找到了今年11月份新浪微博官方的一份關于微博UGC的數據,頓時了然:
新浪微博2016年PGC、UGC幾項關鍵數據
新浪微輿情是新浪微博旗下的子公司,擁有全量的微博數據,再加上騰訊微博的信息量,因而其他渠道的信息量比例會被微博這一渠道巨大的UGC內容給稀釋掉,形成絕對信息量不小但看起來很少的效果。
(4)事件熱度信息的地域分布
(事件熱度信息的)地域分布反映的是搜索事件的全網信息量在全國各地的分布情況,這一點與百度指數的原理一樣。
?“淘寶列入惡名市場名單”事件的信息地域分布
從地域分布來看,與“淘寶列入惡名市場名單”相關的信息主要來源北京(3561條)、廣東(1139條)和上海(834條)。
(5)事件熱度信息的關聯詞分析
事件熱度信息的關聯詞分析,它是通過系統自動運算找出事件核心詞、并計算出與核心詞同時出現關聯度最高的高頻詞,也就是與核心詞共現頻率最高的詞匯(關于“共現”的原理介紹,請看《如何用數據分析,搞定新媒體運營的定位和內容初始化?》的第三部分)。
下圖中的關聯詞和弦圖和對應關聯度數據表反映了該事件的關聯詞情況。
“淘寶列入惡名市場名單”的關聯詞分析
通過對與“淘寶列入惡名市場名單”相關的信息進行分析后可看出,與其核心詞惡名市場關聯度最高的詞語為淘寶(100.00%)、美國(99.06%)和名單(97.19%)。
3.2.2 信息監測
一直以來,(輿情、口碑)信息監測的主要用戶是政府、大型企業和專業新聞媒體,因而對應的主要功能是傾聽民意、監測自身(也包含競品)的品牌口碑及動向,以及追蹤熱點事件走向等。此外,它可以通過各種預警設置,對關注事件產生的新信息進行第一時間的提醒,以免運營者遺漏重要信息。
實際上,信息監測可以用于新媒體領域,結合上面提及的“事件熱度趨勢分析”板塊,媒體運營者可以有效的追蹤熱點事件的最新進展,做到不遺漏。
關于它的應用場景,筆者目前想到2個:
(1)文章轉載的全網監測
筆者平時會寫一些關于互聯網數據運營的文章,發布在一些知名的互聯網平臺上,因此想監測一下全網轉載的情況,比如筆者最近的一篇文章—《如何用數據分析,搞定新媒體運營的定位和內容初始化?》,在“信息監測”的監測方案部分設置好關鍵詞后,選好時間區間,轉載的詳細情況和數據統計圖表盡收眼底:
文章轉載的信息列表
筆者文章轉載的各種信息反饋圖表
(2)關注信息的全網監測
運營者可以在監測方案中按設置指定的關鍵詞,定向的追蹤自己感興趣的事件、公司、品牌和資料等信息。
以下是筆者在學習數據分析時,進行的關鍵詞設置,多個零散詞匯通過邏輯運算符形成了一個監測方案,可以無遺漏的監測自己關注的信息,同時系統也會過濾掉垃圾信息。
通過各種邏輯運算符設置信息監測的關鍵詞
設置好監測方案以后,點擊“圖表分析”,即可看到如下圖所示的各種監測方案信息量的可視化分析圖表。
監測方案的信息量的走勢圖
監測方案的信息量分布情況
監測方案信息量的地理分布情況
再選擇“信息列表”項,通過時間、地域、渠道等選項的篩選,我們就可以得到自己想要的信息了。此外點擊其中一條信息,即可進入信息詳情頁,如下圖所示:
監測方案的信息列表
監測信息的詳情頁
另外,這個功能模塊還有幾個功能,如下圖所示,篇幅有限,感興趣的小伙伴自己去試試吧。
“信息監測”板塊的預警通知、監測日報和定向監測功能
3.2.3 事件分析
事件分析(包括全網事件分析和微博事件分析)指的是,輸入近期事件或話題關鍵詞,系統自動進行深度挖掘和多重分析,記錄事件從始發到發酵期、發展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情傳播路徑、關鍵詞云、發展態勢、受眾反饋和網民觀點分析。
關于它的實際使用攻略,筆者之前寫過一篇文章詳細介紹過,請參看《【數據運營】傅園慧和她的“洪荒之力”的大數據輿情分析》。
3.2.4 微博傳播效果分析
微博傳播效果分析通過分析單條轉發量/評論量大的的微博,從而得到關于該微博的傳播路徑、意見領袖、用戶畫像和微博營銷傳播質量等。
下面貼一張大圖讓大家感受下:
微博傳播分析的部分功能
限于篇幅,這部分筆者就不詳述了,請參看筆者之前的文章:《【數據運營】揭開微博轉發傳播的規律:以“人民日報”發布的G20文藝晚會微博為例》。
4?可視化工具
俗話說:“文不如字,字不如表,表不如圖”,一張富含信息量且外觀時尚靚麗的圖會給文章增色不少,會激起讀者的好奇心,不知不覺的去圖片中探尋信息,從而讓文章的可讀性大大增加,易于傳播。比如這張圖:
人人都是產品經理網站“產品經理”專欄所有文章標題制成的詞云
怎么樣,想學了吧?
不急,這個其實很簡單,下面我將以實例詳細的講解制作這張圖的步驟,即使是小白的你,也能做出這樣精美的個性化詞云。
4.1 個性化詞云制作
我把個性化詞云的制作分為3個步驟,即抓取數據、文本處理和詞云制作,詳見下圖:
個性化詞云制作的步驟
4.1.1 數據獲取
從本質上講,詞云是反映某一特定主題的文本數據的可視化展示。比如,上面的喬幫主詞云反映的就是“產品經理”專欄中較為熱門的關鍵詞/話題。所以,要制作一個“出彩”且有內涵的自定義詞云,文本不能無規律,需要定向的獲取特定的文本數據。
筆者對前不久上映且廣受好評的電影《你的名字》頗感興趣,想分析一下這部電影的市場反響如何,先聊聊這部分數據的獲取。
對于影片的分析,首選當然是豆瓣電影,因為它是國內最具有參考價值的影評網站,從文本中能得到很有價值和有意思的信息。但考慮到文本數據獲取的難易程度,我先介紹如下3個數據獲取的方法:
(1)自己編寫爬蟲,想要什么數據就去抓取什么數據,既經濟(用爬蟲工具會花錢),又會增加“自己動手,豐衣足食”的成就感,最重要的是,略施小計就可以躲避豆瓣的封IP機制。
用python編寫爬蟲抓取豆瓣影評數據
(2)利用集搜客這樣的爬蟲軟件去抓取數據,不需要編程技術,且簡單易上手,但是可能會被封IP。
(3)采用新浪微熱點這個大數據工具,因而不用豆瓣的評論數據,在互聯網上進行全網信息搜集,獲取有關該影片的熱門文章標題作為分析的文本數據,這種方法是三種中最為輕松簡單的,而且獲取的是全網的數據,大家可以有選擇性的選取自己需要的數據,操作步驟如下圖所示:
用新浪微熱點獲取文本數據
因為最近學了點Python,故筆者選擇了用Python編寫爬蟲來獲取了豆瓣這部分的影評數據。
獲取《你的名字》豆瓣電影的影評數據
抓取后的數據整理成如下表格:
保存到本地的《你的名字》豆瓣影評數據
接下來,就是把文本數據單獨取下來咯,全選“評論內容”這一列,把這些影評數據占到記事本上,作為接下來分析的“原材料”。
4.1.2 文本處理
一般情況下,文本數據的處理包含很多方面,如分詞、詞性標注、詞頻統計、文本分類、情感分析、關鍵詞提取、文本摘要提取等。
在這里,制作詞云只需要考慮關鍵詞提取和詞頻統計這兩個板塊。
這里使用到的工具是前面提及的熱詞分析工具—文本挖掘工具。將《你的名字》豆瓣評論的文本部分粘貼到上圖中左邊的文本框中,再點擊右上方的“分析出圖”,系統顯示完成后,右邊的預設詞云會發生變化,此時點擊“導出”,即可得到詞頻的csv文件。
經文本挖掘工具處理得到的詞頻csv文件
這里去除詞語和詞頻兩列,用來進行接下來的詞云制作。
4.1.3 詞云制作
處理詞云,筆者用到的工具是Tagul(現更名為Wordart)。下面是它的的主頁展示:
Tagul主頁
(1)詞頻載入格式
在頁面左上方的“Words”處,就是加載詞語及詞頻的地方,這里需要注意一下它的載入格式。,如下表所示:
Tagul的詞頻載入格式
上表中,前兩列的“Word”和“Weight”就是剛才經處理過的詞語和詞頻,Color一欄則是設置該詞語的顏色,這是個性化詞云中很關鍵的一個要素,會直接影響到最終的詞云呈現效果。這里可以不填寫,那么在形成詞云時默認隨機生成顏色。如果要形成定制化的顏色,則需要設置采用16進制的色值,以下是常用的顏色代碼表,即色值表。
常用的16進制色值表
與此類似,字體也可選可不選,需要定制的話,則可進行相應的設置。
“Repeat”這項則表示該詞語是否會重復出現,填寫“0”,則表示不重復,填寫“1”,則表示重復。為了保持信息的精準度,減少噪聲,一般選擇填寫“0”。
后面的URL鏈接就忽略了,因為有前面的設置,就不需要進行網頁鏈接。
按照上述操作,出詞語和詞頻兩例外,筆者還定制了“Color”和“Repeat”這兩項,結果顯示如下。
最終的詞語載入表
全選該表格的文字部分,將其粘貼到“Import Words”的文本框里,進行保存。
(2)載入中文字體
因為Tagul是老外做的一個在線詞云制作網站,所以Tagul不支持中文,這需要我們載入能支持中文顯示的字體,如下圖所示,筆者載入的是“You Yuan(幼圓)”字體。
載入中文字體
(3)處理背景圖片
加載了字體,可以說這是個性化詞云制作的核心部分,詞云最終效果的美與不美就在此一舉。
值得注意的是,在載入圖片之前的圖片選取步驟時,需要選擇背景和主題對比比較明顯的圖片。從接下來的圖片預處理過程中,你會發現這一點的重要性。
詞云自定義圖片的初始狀態
筆者選取的是《你的名字》最為標志性的一張海報,看起來很有感覺:既有男女主角的形象,也交代了他們所處的生活環境,中間則是影片中重要的提條線索—彗星。這張圖初始狀態看似雜亂,不好處理,但仔細觀察,可以發現主體(男女主角)和背景(天空、城市和彗星)之間的對比度和色相差異還是很明顯的。在Tagul的“Custom Shape”的設置中可以進一步處理背景和主體之間的對比度問題。
在“Shapes”處載入圖片后,點擊上載成功后圖片的右下角“齒輪”,打開圖片預處理。其中,“Threshold”處理景深,可以拉開/縮小背景和主體之間的差異;“Edges”則是處理主體輪廓的銳度,可以調節圖片的清晰程度模糊程度。這里的要點是—淡化背景,清晰主體輪廓。
淡化背景,強化主體輪廓
好了,完成上面繁瑣的步驟之后,現在是見證奇跡的時刻了,點擊右上方大大的黑體字“Visualize”,待進度條加載完畢后,即可得到如下的最終效果圖:
最終的詞云效果圖
4.2?網絡可視化利器— Gephi
Gephi是一款開源免費跨平臺基于JVM的復雜網絡分析軟件, 其主要用于各種網絡和復雜系統,動態和分層圖的交互可視化與探測開源工具,下載地址為https://gephi.org/。網上目前比較權威的Gephi教程是在Udemy上的Ooof liu講解的《Gephi中文教程》,地址為https://www.udemy.com/gephi/,看完這個部分仍有饒有興趣的小伙伴可以去學習下。
下面是由Gephi制作的各種網絡圖,這些圖不僅包含了豐富的信息量,而且極富美感,在吸引眼球的同時還給予我們有意義的信息。
各種由Gephi制成的網絡圖
Gephi是一款信息數據可視化利器,它的一般應用場景如下:
- 探索性數據分析
- 鏈接分析
- 語義網絡分析
- 社交網絡分析
- 生物網絡分析
以下簡單介紹下它的使用方法。
在操作下面步驟之前,先去Gephi官網上下載最新版的0.9.1 version,這是免費的,且支持中文,還有豐富的插件下載,這簡直是數據可視化愛好者的福音!
值得注意的是,這款軟件是用Java編寫的,所以需要安裝Java環境,這個有點磨人。演與演員的關系作為分析對象,來詳細解讀如何制作一個“秀外慧中”的社交網絡可視化圖譜。
4.2.1 制作源數據
Gephi的源數據可以在excel中完成。在excel中,僅輸入2列即可,表頭嚴格按照Gephi的格式來制作,第一列為“Source”,第二列為”Target”。下面以豆瓣上評分6以下的國內電影的導演(選取的是張藝謀、陳凱歌、馮小剛等大家耳熟能詳的導演,演員隨之確定)和演員關系表為例,做成如下格式:
在Excel上編輯Gephi的源數據
做好源數據之后,記得保存為CSV格式,Gephi僅能讀取這種格式的數據。
4.2.2 導入數據
在導入數據時,分別在“分隔符”、“如表格”、“格式”這三個選項下選擇“逗號”、“邊表格”、“GBK”。接下來點擊“下一步”,完成數據的導入。
在Gephi中導入csv數據
4.2.3 調整網絡布局
剛打開“圖”,也就是網絡圖的圖形界面時,這幾百個節點“蝸居”成一團,有點盤古開天辟地前“渾沌如雞子”的感覺,但這個模樣離我們心中的審美還有很長一段距離呢。
初始狀態的網絡圖
不過,不用著急,下面幾個簡單的步驟就能讓它“脫胎換骨”,完成華麗的變身。
在左上方的“布局”欄目中,選擇其中的任一算法,并可以在下方的操作界面修改默認算法參數,也可使用默認的參數。單擊圖中運行按鈕,布局算法生效。
選擇“布局”中的算法
選擇不同的“布局”算法,網絡圖的形態就會有相應的變化,以下是其中最為典型的集中算法及其拓撲圖。
各種“布局”算法的網絡圖拓撲形態
在這里,筆者選取由“Frunchterman Reingold”算法確定的呈蒲公英花朵狀的結構作為初始形態。
網絡布局做好后,我們完成了這個網絡圖的“骨架”搭建,下一步則需要對它的外表進行修飾,包括節點、邊和背景等部分的美化。
4.2.4 美化
在這里,我們可以對網絡圖進行“美容”,給它著上靚麗的顏色和合適的背景作為襯托。
如下圖所示,我們可以在“外觀”一欄對節點和邊進行著色,然后在下方選擇合適的背景,要注意節點、邊和背景之間的色差和對比。
給節點、邊和背景選擇合適的顏色
還需要注意一點,沿著“外觀”>“節點”>”數值設定”這一路徑,讓節點根據連接數的多少而顯示相應的大小,使該網絡圖更有層次感;同理,可以對邊進行類似的設定,則兩個聯系緊密的節點間的邊將變得更寬。
經過調整后,可以得到如下的網絡圖。
顏色調整后的效果圖
4.2.5 顯示標簽
經過上述幾個操作步驟之后,網絡圖還需要加入最為重要的一項內容—標簽,也就是前面提及的導演及演員的姓名,反映在節點上,由此完成他們之間的社交網絡圖的基本繪制。
沿著“窗口”>“預覽設置”的路徑,打開“預覽設置”,界面顯示如下。其中,需要在“節點標簽”這部分完成字體的選擇,把默認的西文字體變為中文字體。除此之外,此處還可以進行邊框、字體大小、顏色、透明度等的設置。
在“預覽設置”中設置中文字體
完成上述選項后,還需要在軟件界面的下方,點擊一下左下角那個大大的“T”,則節點標簽就會顯現,旁邊也有些字體調節鈕,大家可以摸索下。
在“布局”中,選擇“標簽調整”算法,得到下圖:
最終效果圖
圖中各個節點的字體隨節點的重要性(由度、連入度或連出度確定)而呈現出不同之大小。所以,大家先看文字,了解其中最為突出的一些演員和導演,其次在看他們之間的關系。
筆者比較懶,這個網絡圖其實還可以進行更深入的優化的,有興趣的小伙伴可以嘗試著做得更絢麗一些。
4.3?數據地圖
數據地圖,在Excel2013版及以上中都有三維地圖,還有一些BI工具中也集成了這個模塊,當然也有專業的地圖GIS軟件,如地圖慧、智圖等。由于筆者之前寫過一篇關于數據地圖如何運用的文章,在此不再贅述,詳見《運營實操|15分鐘學會數據地圖分析》。
好了,上面的工具部分介紹完畢,該進入最終的收尾階段了。在某種意義上講,上面介紹的若干工具都是為接下來的“數據新聞”部分做準備—它們是數據新聞中不可獲取的一部分,是數據新聞內容呈現的重要“武器”。
5?數據新聞
在正式介紹數據新聞之前,筆者先聊聊,為什么需要數據新聞這種新型的新聞報道方式。
這里,筆者引用美國Northwestern University人文與社科學院的Prof BrianKeegan的一段話作為注解:
“在當代,對于信息過載,以及恐懼、不確定性和懷疑等情緒的焦慮氛圍下,數據驅動的新聞可以起到關鍵性的作用。它們可以為關于政策、經濟趨勢、社會變革的討論提供更為堅實的經驗基礎?!?/p>
由此可見,信息過載、信息失真和現實世界廣泛存在的不確定性,導致人們不再相信沒有充分依據的信息,因而數據新聞這種更有說服力的信息載體呼之欲出。
5.1?數據新聞簡介
數據新聞,又叫數據驅動新聞。是指基于數據的抓取、挖掘、統計、分析和可視化呈現的新型新聞報道方式。它致力于從海量數據中發現新聞線索,或是抓取大量數據拓展既有新聞主題的廣度與深度,最后依靠可視化技術將經過過濾后的數據進行融合,以形象化、藝術化的方式加以呈現,致力于為讀者提供客觀、系統的報道以及良好的閱讀體驗。
目前,在大數據新聞制作上已經積累了經驗的國際媒體有《衛報》《紐約時報》《華盛頓郵報》等。
以下是常見的數據新聞呈現方式:
不同類型的數據新聞
需要注意的是,數據新聞不一定非得要復雜的數據來呈現事實,表現出很高的逼格。在很多時候,簡單的描述性數據即可,就像下面的一個示例一樣,數據圖表的呈現讓讀者更加清晰、直觀的了解到西藏班在“量”和“質”上的變遷,是“綠葉”,而內地西藏班的整個發展歷程才是真正的“紅花”,是該報道的主線。
一張圖讀懂“內地西藏班”
5.2?數據新聞的形式
一般情況下,數據新聞有如下3種形式:
5.2.1 新聞敘事
數據新聞體系下的新聞敘事講求客觀理性和邏輯性,從數據視角來看待事件與社會話題的方方面面,加之以形象具體的可視化圖表作為最后的呈現方式,使讀者對內容的真實性和價值性產生信任。
以下是標題為《23萬投票紀錄 回顧第五屆香港立法會》的數據新聞,下面選取了該文中一些具有代表性的數據圖示。
《23萬投票紀錄 回顧第五屆香港立法會》數據新聞中的一些圖示
從上圖中,在運用數據圖示的同時,借助數據分析的方法,從多維度總結了議員的投票行為。這種基于數據的的表達,比起單純的文字報道來,表現清晰,說服力強。
5.2.2 事實判斷
一個孤立的事件當中的少量信息往往缺少關聯度,但如果從正確的角度觀察卻能發現極為重要的價值。透過數據,內容運營者可以發現僅憑知覺和傳聞難以感知的、隱藏在事件/新聞背后線索或假設,抽絲剝繭、言之鑿鑿的把事件的來龍去脈和其中緣由講述透徹。
2016年7月25號在DT財經上有一篇文章,文章標題為《10萬條掛號大數據顯示:互聯網也救不了看病難》,文章中全篇引用了掛號網各個維度的一手10W數據。采用循序漸進的邏輯描述并分析看病難互聯網也很難解決這一難題。重要的是,作者將這些數據制作成可視化的數據圖表,從掛號網注冊醫院分布、支持網絡預約功能的醫院占比到預約掛號量超10萬的醫院和人數分布情況,最后到患者參與分享的比例及對候診時間的滿意度分析,將這些數據轉化為數據地圖、點狀圖、旋風圖和趣味條形圖等可視化形式呈現出來。
《10萬條掛號大數據顯示:互聯網也救不了看病難》中的可視化圖表
從這個例子可以看出,數據新聞的報道方式能夠在宏觀上對某個事件看得更加清楚與全面,事件復雜的演進過程以及這個過程中的各個方面,都能描述得直觀且有趣,最重要的是,很能讓異見者服氣。
5.2.3 預測走向
通過數據的挖掘和分析,尋找出有價值的相關性,繼而增加對相關事件發展趨勢的預測性,新聞和數據相結合創作出精確和深度報道,成為大數據時代的新聞業務發展方向。
下圖是CNN在今年7月份關于美國總統大選預測的數據新聞,全篇大篇幅的介紹了當下美國社交媒體上各州對候選人的支持情況、通過復雜算法得出的候選人各州獲勝的概率以及哪個州對于總統選舉具有決定性意義等。
CNN在2016年7月份關于美國總統大選的預測(局部)
5.3?如何成為一個優秀的數據新聞內容運營者
數據新聞學是一門交叉的學科,數據新聞的產生給傳統的新聞工作者提出了挑戰,傳統的新聞創作理念和方式,要求新聞工作者具備采寫編評等基本專業技能,但目前已無法滿足大數據時代下數據新聞的創作。
要做好數據新聞,需要運營者著重提升以下4個方面的素養/能力:
5.3.1?敏銳的數據洞察力
數據新聞需要大量的數據、數據分析處理,不僅僅是要有技術水平,更需要一雙慧眼,分得清“真數據”和“假數據”,而且還要選擇重要的數據和信息進行內容輸出,為受眾提供更細致、精確的事件分析,又快又準的報道新聞,數據新聞的把關在數據時代更為重要。
媒體工作者需多渠道的收集數據。從公開的數據庫或者是政府部門、企業、機構中獲取數據,從這些海量信息中判斷和選擇有表現力的數據。當媒體工作者獲取數據之后,便開始處理和整合數據。將與新聞報道無關的數據篩選、過濾后,剩下有用的數據進行整合匯編,形成新的報道內容。
新聞工作者通過數據的挖掘和分析,尋找出有價值的相關性,繼而增加對相關事件發展趨勢的預測性,新聞和數據相結合創作出精確和深度報道,成為大數據時代的新聞業務發展方向。
5.3.2?熟練運用計算機能力
在如今信息爆炸的大數據時代,特別是社交網絡、電子商務與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結構與非結構數據信息的新時代。大量的數據和信息擺在新聞工作者面前,傳統的計算機無法處理大量的、無規律的數據,需要云計算進行分析、處理、統計。
因此,對于當今的新聞工作者提出了更高的要求,必須熟練運用計算機,掌握一門編程語言。如果之前沒有編程基礎,推薦python,它的設計哲學是“優雅”、“明確”、“簡單”,掌握一些常用的爬蟲包、數據分析及可視化包以及自然語言處理包,就能很好的將大量的數據和信息進行友好的呈現。
5.3.3?分析處理數據能力
數據新聞與傳統的文字圖片新聞不一樣,數據新聞需要大量的數據,新聞工作者可以通過數據發現問題、提出問題,也可以先有了問題之后,再去收集相關的數據。而擁有大量數據后,必須對其進行分析和處理,將不需要或不相關的數據過濾掉,剩下有價值的數據加以分析整合,供新聞編輯使用。德勤在美國華盛頓特區的研發創新團隊招聘數據記者,其中最重要的要求就是要具備分析數據的能力,由此可見,數據新聞記者必須具備較強的數據分析和處理的能力,才能勝任此工作。
5.3.4?可視化平面設計能力
數據新聞的可視化表達為新聞行業注入了一股新鮮的血液,讓數據新聞充滿希望與活力。數據新聞的可視化圖片將不同的時間和空間聯系在一起,將繁雜的數據簡單化,便于受眾理解,更有利于受眾參與其中,滿足不同受眾的各方面需求。數據新聞的可視化是其一大特點,因此對于新聞工作者來說,應熟練掌握可視化技術,學會識圖制圖以及各種表格的制作。
最后,筆者介紹一個數據新聞的資料庫,在這里小伙伴們可以看到國內外許多優秀的數據新聞案例,要做優秀的數據新聞制作者,首先從模仿學習做起。
新華網數據新聞信息庫鏈接地址:http://djchina.org/showcase/
好了,看到這里的小伙伴,我幾乎可以斷定是真愛了,希望你們能掌握好這些“工具”,成為運營領域的“增長黑客”,不必羨慕什么“技術流”,因為創造性思維和強烈的好奇心會給你帶來好運的,等到工具、技能和思維三者融會貫通的時候,就會像獨孤求敗那樣:
“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!
參考資料
- 范冰,《增長黑客》
- 新浪微熱點官網官方介紹
- NLPIR在線系統官方介紹
- IBM Watson?Tone?Analyzer官方文檔
- 百度百科“數據新聞”詞條
- CNN在2016.07美國總統大選預測網站
- FT數據新聞網
#專欄作家#
蘇格蘭折耳喵,微信公眾號:運營喵是怎樣煉成的,人人都是產品經理專欄作家。數據分析愛好者,擅長數據分析和可視化表達,喜歡研究各種跟數據相關的東東。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
看了兩遍,真贊!!
先收藏 再看看
有適合新手的嗎,看不太懂
牛逼的不行
文本挖掘工具的鏈接不對 ??
你得登錄
老哥,牛逼了,瘋狂為你打電話啊
??
數碼寶貝里的不叫小精靈……
是不叫這個,這是我叫的,準確的來說,應該打上雙引號。哈哈哈
感謝分享
是我是我還是我,居然看到快10點了。給大佬獻上我的膝蓋 ??
勤奮好學,終有所成~為你點個贊??
感謝分享
感謝分享,邊看邊操作的,成功做出來了詞云,還有好多內容不會,慢慢吸收
練中學,干中會,設這個理兒! ??
收集的真全,再給你推薦個 DataExa
這個產品太貴且申請麻煩,我分享的都是觸手可及或是免費的工具。
牛逼的不要不要的
好難吸收! ?
邊看邊操作,慢慢會吸收的
寫的不錯 ??
太有收獲了,厲害呀前輩,膜拜
喵~! ?? 很不錯哦。
沒有比工具更干貨的東西
嗯,工具是手和大腦的延伸,能干很多我們干不了的事情
厲害了,還有個工具Tableau,做可視化很不錯的
那是BI了,要花銀子的
好的
不是在這里獲取嗎??
清晰文檔
我對新浪微輿情熱點趨勢預測那塊很感興趣,試了下,果然像喵哥說的那樣,能研判事件的走向,牛?。?!
靈活運用工具很重要,我說的這些用法官方說明里可沒有哦 ??
圖悅之前有用過,當時覺得有局限性且詞云效果不好,不夠美觀,所以棄了;百度指數倒是經常使用,可以看到關鍵詞的搜索規模情況及漲跌態勢,不過樓主介紹的新浪微輿情的最突出的峰值節點的重點信息聚類不錯;其實新浪微輿情我也一直有在用它的信息監測還有事件分析功能,感覺非常好用,比較專業,其他功能后面陸續還會試用??傊葑x完文章受益匪淺,小工具都非常實用,樓主辛苦了,感謝!
能幫到大家,吾心足矣! ??
微輿情的這個趨勢預測功能真的蠻強大的,對于新媒體運營很有幫助。
工具是死的,人是活的,會用就能發揮出奇效 ??
??
??