不會制作詞云圖?我來教你

1 評論 8778 瀏覽 17 收藏 8 分鐘

編輯導語:云圖,也叫文字云,是對文本中出現頻率較高的“關鍵詞”予以視覺化的展現,詞云圖過濾掉大量的低頻低質的文本信息,使得瀏覽者只要一眼掃過文本就可領略文本的主旨。如今,越來越多的文章開始使用詞云圖來展示信息。如此便利的信息展示形式,你還不會制作嗎?

詞云圖是數據可視化的一種常見形式,特別適合于文本數據的處理和分析,今天就來大略談談詞云圖。

詞云圖概述:是什么、有何特點、如何制作

一、什么是詞云圖

“詞云”的概念最早是美國西北大學新聞學副教授、新媒體專業主任里奇?戈登(Rich Gordon)提出的。

詞云(Word Cloud),又稱文字云、標簽云(Tag Cloud)、關鍵詞云(Keyword Cloud),是文本數據的一種可視化展現方式,它一般是由文本數據中提取的詞匯組成某些彩色圖形。

詞云圖的核心價值在于以高頻關鍵詞的可視化表達,來傳達大量文本數據背后的有價值的信息。

以央視網對浦東開發開放30周年慶祝大會的新聞報道為例(網址:https://news.cctv.com/2020/11/12/ARTIZeNIAERfxwqaQdNVIZOa201112.shtml),用在線詞云制作工具易詞云對該網頁上的文本數據進行處理,得到了下圖1所示的詞云圖。

詞云圖概述:是什么、有何特點、如何制作

圖1 詞云圖示例

由上可見,詞云圖是由詞匯、顏色、字體大小和圖形四個要素構成的,它濃縮了文本數據的內容,通過文字、色彩、圖形的搭配,產生了有沖擊力地視覺效果。

詞云圖直觀的表示了每個詞匯在相應文本數據中的詞頻分布,通過使用不同的顏色和大小來表示不同級別的相對重要性,字體越大越顯眼,對應的詞匯被提及頻率越高。

詞云圖過濾掉了大量的文本信息,使網頁瀏覽者只要一眼掃過詞云圖就可以大致領略到文本所表達的主旨。

二、詞云圖有何特點

詞云圖作為對文本數據的一種再加工方式,本身存在一些優勢,但也有一些不足之處。筆者認為,詞云圖有四個優點和四個缺點:

1. 四個優點

  1. 視覺上更有沖擊力:詞云圖比條形圖、直方圖和詞頻統計表格等更有吸引力,視覺沖擊力更強,一定程度上迎合了人們快節奏閱讀的習慣;
  2. 內容上更直接:詞云圖本身是對文本內容的高度濃縮和精簡處理,能更直觀的反映特定文本的內容,在一定程度上能節省讀者時間,讓讀者在短時間內對文本數據的主要信息做到一目了然;
  3. 應用范圍廣:詞云圖可以作為一種分析工具應用到用戶畫像、輿情分析等場景下,還可以直接嵌入到PPT報告、數據分析類產品、可視化大屏中,是對文本數據價值變現的一種手段;
  4. 制作門檻低:制作詞云圖的難度不高,沒有數據處理技術背景的人也能做出有效的詞云圖來。

2. 四個缺點

  1. 區分度不足:詞云圖對詞匯的表達采取的“抓大放小”的處理方式,對于詞頻相差較大的詞匯有較好的區分度,但對于顏色相近、出現頻率差不多的詞匯的區分效果不是很好;
  2. 輸出無統一標準:受制于分詞技術、算法、詞庫質量等因素,不同的人對于同一文本數據,采取不同的詞云圖生成方式和圖案,得到的詞云圖可能會有較大差異,有時候可能出現一些亂碼,影響詞云圖的輸出效果;
  3. 信息缺失問題:詞云圖對高頻詞匯能做到突出化處理,讓高頻詞匯占據C位,但是對于大量低頻詞匯或者長尾型詞匯所傳遞的信息不能做很好的表達,再加之這類詞匯大多字體偏小,可能會讓讀者忽略掉部分信息。對于有特定要求的或者關注某些細節的讀者來說,詞云圖可能無法滿足他們的需求;
  4. 內容表達缺乏邏輯性:詞云圖是由各類詞匯在空間上按一定圖形組合而形成的,這些詞匯都是從有邏輯結構的文本數據中拆分出來的,從文字變成了圖形后,再呈現出來的內容失去了內在的邏輯結構,需要讀者將高頻詞匯串聯起來形成聯想才能獲取到信息。

三、詞云圖如何制作

制作詞云圖這件事情并不復雜,通常需要經過數據準備、分詞處理、圖形輸出三個步驟。

第一步要做的是準備一份文本數據,要求文本數據中沒有圖片或音視頻文件及其鏈接;第二步需要對準備好的數據進行分詞處理,提取其中的關鍵詞,并做詞頻統計;最后一步就是選擇合適的圖案,做要輸出的圖形進行個性化配置,生成想要的詞云圖。

從實現方法來看,制作詞云圖通??梢苑譃槿N方法:借助在線工具、應用專門的軟件、編程實現。

  • 第一種方法:借助在線工具,也就是在網頁上就能完成詞云圖的制作和輸出。目前支持在線制作詞云圖的網站有:WordArt、Wordiout、微詞云、易詞云、美寄詞云等;
  • 第二種方法:直接使用有詞云圖制作功能的軟件,比如:FineBI、Tableau、SmartBI、BDP等,詞云圖只是這些軟件的一個小功能;
  • 第三種方法:通過編程來實現詞云圖,常用的編程語言有Python和R。

對于有編程技術基礎的朋友,可以自行用Python等制作詞云圖,對于沒有編程基礎的朋友采取前兩種方法,這兩種方法操作起來比較容易,有興趣的朋友可以親自嘗試一下,筆者在這里就不一一介紹了。

 

作者:黃小剛,微信公眾號:大數據產品設計與運營

本文由 @黃小剛 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 要是有Python、R的詞云圖代碼就好啦

    來自江蘇 回復