干貨|作為一個合格的“增長黑客”,你還得重視外部數據的分析!
在本文中,作者引出了“外部數據”這一概念,并實例分析,如何從海量的外部數據中獲取可以對自身業務起到指導作用和借鑒意義的insight,并借助外部環境數據來優化自己。
現在互聯網上關于“增長黑客”的概念很火,它那“四兩撥千斤”、“小投入大收益”的神奇法力令無數互聯網從業者為之著迷。一般來說,“增長黑客”主要依賴于企業的內部數據(如企業自身擁有的銷售數據、用戶數據、頁面瀏覽數據等),以此為依據進行數據分析和推廣策略擬定。但是,如果遇到如下幾種情況,“增長黑客”就捉襟見肘了:
- 假如一家初創公司,自己剛起步,自身并沒有還積累數據,怎么破?
- 就算有數據,但自己擁有的數據無論在“質”和“量”上都很差,正所謂“garbage in ,garbage out”,這樣的數據再怎么分析和挖掘,也難以得到可作為決策依據的數據洞察……
- 能看到數量上的變化趨勢,卻無法精準的獲悉數值變動的真正原因,比如,近期APP上的活躍度下降不少,從內部數據上,你只能看到數量上的減少,但對于用戶活躍度下降的真實動因卻無法準確判定,只能拍腦袋或者利用過時的經驗,無法讓相關人信服。
由此,筆者引出了“外部數據”這一概念,尤其是“Open Data”這片“數據藍海”,“他山之石,可以攻玉”,從海量的外部數據中獲取可以對自身業務起到指導作用和借鑒意義的insight,借助外部環境數據來優化運營和產品設計。
下圖是本文的行文脈絡:
在談及外部數據的重要性之前,讓我們先簡單的看一看數據分析的四種類型。
1. 四種常見的數據分析類型
按數據分析對于決策的價值高低和處理分析復雜程度,可將數據分析歸為如下圖所示的4種范式:
從上圖可以看到,越遠離坐標原點,沿坐標軸正向延伸,價值度就越高,分析處理的難度也就越大。對于數據分析師而言,“描述型分析”、“診斷型分析”和“預測型分析”最為常見,而“規范型分析”涉及比較高深的數據挖掘和機器學習知識,不是我們接下來討論的重點。
1.1 描述型數據分析
描述型分析是用來概括、表述事物整體狀況以及事物間關聯、類屬關系的統計方法,是上述四類中最為常見的數據分析類型。通過統計處理可以簡潔地用幾個統計值來表示一組數據地集中性(如平均值、中位數和眾數等)和離散型(反映數據的波動性大小,如方差、標準差等)。
1.2 診斷型數據分析
在描述型分析的基礎上,數據分析師需要進一步的鉆取和深入,細分到特定的時間維度和空間維度,依據數據的淺層表現和自身的歷史累積經驗來判斷現象/問題出現的原因。
1.3 預測型數據分析
預測型數據分析利用各種高級統計學技術,包括利用預測模型,機器學習,數據挖掘等技術來分析當前和歷史的數據,從而對未來或其他不確定的事件進行預測。
1.4 規范型數據分析
最具價值和處理復雜度的當屬規范型分析。
規范型分析通過 “已經發生什么”、“為什么發生”和“什么將發生”,也就是綜合運用上述提及的描述型分析、診斷型分析和預測型分析,對潛在用戶進行商品/服務推薦和決策支持。
2. 對外部數據中的分析很重要
經過上面對四種數據分析類型的描述,筆者認為現有的基于企業內部數據的數據分析實踐存在如下幾類特征:
- 大多數的數據分析僅停留在描述性數據分析上,未觸及數據深層次的規律,沒有最大限度的挖掘數據的潛在價值;
- 數據分析的對象以結構化的數值型數據為主,而對非結構化數據,尤其是文本類型的數據分析實踐則較少;
- 對內部數據高度重視,如用戶增長數據,銷售數據,以及產品相關指標數據等,但沒有和外部數據進行關聯,導致分析的結果片面、孤立和失真,起不到問題診斷和決策支撐作用。
由此,我們必須對企業之外的外部數據引起重視,尤其是外部數據中的非結構化文本數據。
對于文本數據的重要性,筆者已在之前的文章中有過詳細的論述,詳情請參看《數據運營|數據分析中,文本分析遠比數值型分析重要!(上)》。與此同時,非結構化的文本數據廣泛存在于社會化媒體之中,關于社會化媒體的相關介紹,請參看《干貨|如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》。
3. 外部數據的幾種常見類型
外部數據是互聯網時代的產物,隨著移動互聯時代的興起,外部數據的增長呈現井噴的趨勢。各個領域的外部數據從不同角度刻畫了移動互聯時代的商業社會,綜合這些外部數據,才能俯瞰到一個“全息式”的互聯網版圖。
按互聯網行業和領域的不同,外部數據包括且不限于:
- 阿里(淘寶和天貓):電商大數據
- 騰訊(微信和QQ):社交網絡大數據
- 新浪(新浪微博和新浪博客):社交媒體大數據
- 脈脈:職場社交大數據
- 谷歌/百度:搜索大數據
- 優酷:影視播放大數據
- 今日頭條:閱讀興趣大數據
- 酷云EYE:收視大數據
- 高德地圖:POI大數據
4. 外部數據的獲取/采集
隨著互聯網時代對于“Open Data(開放數據)”或“Data Sharing(共享數據)”的日益倡導,很多互聯網巨頭(部分)開放了它們所積累的外部數據;再者一些可以抓取網絡數據的第三方應用和編程工具不斷出現,使得我們可以以免費或付費的方式獲得大量外部數據(在獲得對方允許和涉及商業目的的情況下),最終的形式包括未加工的原始數據、系統化的數據產品和定制化的數據服務。
以下是一些常見的外部數據分析和采集工具:
4.1 指數查詢
(1)百度指數
(2)微指數
(3)優酷指數
(4)谷歌趨勢
4.2 爬蟲工具
(1)火車頭
(2)Data Scraping
(3)八爪魚
5. 外部數據分析的應用場景
最先對外部數據高度重視的先行者其實是政府機構,它們利用大數據輿情系統進行網絡輿情的監測,但隨著大數據時代的向前推進,外部數據的應用場景也越來越多,包括且不限如下方面:
- 輿情監測
- 企業口碑和客戶滿意度追蹤
- 企業競爭情報分析
- 品牌宣傳、廣告投放及危機公關
- 市場機會挖掘、產品技術開發創意挖掘
- 行業趨勢分析
接下來,筆者將以知名互聯網社區——“人人都是產品經理”上近6年的文章數據作為實例,進行“360度無側漏式”的數據分析,來“示范”下如何對外部數據進行挖掘,從中最大限度的“榨取”關于互聯網產品、運營方面的insight。
6. 外部數據分析實操:以“人人都是產品經理”上的文章數據分析為例
“人人都是產品經理”社區創建于2010年,是一個產品經理學習、交流、分享的社會化媒體平臺,每天都有更新關于互聯網產品、設計、運營等的資訊和文章,由此吸聚了大量的具有互聯網背景的讀者。據官方宣稱,截至2015年,社區共擁有300萬忠實粉絲。
因此,“人人都是產品經理”在互聯網界具有廣泛的影響力,是國內互聯網發展的一面鏡子,分析它上面的文章數據可以達到見微知著、管中窺豹的效果,從中可以發掘互聯網界的歷史變遷和發展現狀,進而展望互聯網行業“將發未發”的熱點和前進方向。
在筆者下面的“數據發現之旅”中,會帶著3個目的,主要是:
- 通過該社區的資訊文章中,發掘國內互聯網發展的一些特征;
- 發掘互聯網某些欄目下的熱點及其變動趨勢;
- 給筆者的內容創作予以寫作風格定位和題材選取方面的指導。
以下是筆者抓取的數據的原始形態,抓取了“標題”、“時間”、“正文”、“閱讀量”、“評論量”、“收藏量”和“作者”這7個維度的數據,抓取時間區間是2012.05.17~2017.07.31,文章數據共計33,412條。
然后,筆者對數據進行了清洗,主要是“閱讀量”,將“k(1000)“、“萬(10000)”、“m(1000000)”變成了相應的數字,便于后續的數值計算和排序。同時,新增3個維度,即文章所屬的欄目“類別”、“正文字數”和“標題字數”。
6.1全局縱覽
6.1.1 各欄目下的文章數量分布情況
首先,先對各個欄目下的文章數量進行基礎性的描述性分析,看看10個欄目類別下的文章數量分布。
從上面的條狀圖和環形圖可以看出,“業界動態”這一欄目下的文章數量最多,為10,452篇,占到了文章篇數總量的31.3%,其次是產品設計和產品運營,分別占到了總數的19.5%和16.87%,反倒是“產品經理”下的文章數量不多。
接下來,筆者統計了這10各欄目在過去的6年中的數量變化情況,如下面的熱力圖所示:
上面的熱力圖中,色塊越深,對應的數值就越大,越淺則數值愈小。其中,互聯網的“業界動態”一直是文章發布數量最多的欄目。而“產品經理”的發文數量一路飆升(當然2017年還沒過完),間接地可知該職位的熱度(關注和寫作偏好)蹭蹭的往上竄,成為“改變世界”、拿著高薪的產品經理,是無數互聯網從業人員夢寐以求的工作。與此類似的是“產品運營”欄目,發文數量也在穩步上升。
另外,“產品設計”方面的文章主要集中在2012年,可以看出以“用戶體驗”、“UI設計”、“信息架構”和“需求規劃”為主要活動的產品設計在2012年蓬勃發展,產生了大量基于實踐經驗的干貨文章。
6.1.2 閱讀數據分析
現在,筆者從“閱讀量”、“點贊量”、“收藏量”、“正文字數”和“標題字數”這些能反映讀者閱讀偏好的數據著手,進行由淺入深的挖掘,從中發現閱讀數據中的洞察。
在統計分析之前,先去掉若干有缺失值的數據,此時文本數據總量為33,394。
(1)文章數據的描述性分析
先對所有文章的各個維度進行描述性統計分析,獲得這些數據的“初の印象”。
上面的數據過多,為節省篇幅,筆者僅摘取部分數據進行解讀:
- 從上表中,筆者發現,單篇文章閱讀量的最大值是2,100,000!閱讀數高得驚人!在后面的截圖中,小伙伴們可以知曉具體是哪一篇文章如此之高的閱讀熱度。
- 讀者的評論熱情不高,絕大部分的文章沒有評論,這可以從“平均值”、“中位數”和“標準差”這3項指標中看出。
- 絕大部分的文章字數不超過3000,篇幅短小精悍,當然大多數文章都有配圖,寫得太長,讀者懶得看。
- 絕大部分的標題字數不超過20字,太短說不清楚,太長看著招人煩。
(2)文章聚類分析
在該部分,筆者選取 “閱讀量”、“收藏量”、“評論量”、“標題字數”這4個維度作為此次聚類分析的特征(Feature),它們共同構造了一個四維空間,每一篇文章因其在這4個維度上的數值不同,在四維空間中形成一個個的點。
以下是由DBSCAN自動聚類形成的圖像,因4維空間難以在現實中呈現,故以2維的形式進行展示。
從上圖可以看出,此次聚類中,有少數的異常點,由上面的描述型分析可知,閱讀量極大的那幾篇文章的“嫌疑”最大,現在在源數據中“揪出”它們,游街示眾,然后再“除掉”。
去除掉上述異常點之后的聚類圖譜:
從上圖中可以看出,雖然因為維度過高,不同類別簇群存在重合現象,但不同的顏色明顯的將文章類別進行了區分,按照“閱讀量”、“收藏量”、“評論量”、“標題字數”這4個維度進行的DBSCAN聚類可以分為5個類別。
(3) 閱讀量與正文字數、標題字數之間的關聯分析
接著,筆者分別對“閱讀量”與“標題字數”、“正文字數”做了散點圖分析,以期判斷它們之間是否存在相關關系。
從上圖來看,閱讀量和標題字數之間并沒有明顯的線性相關性,標題字數及其對應數量的散點分布,近似形成了一條左偏態的正態曲線,從圖像上印證了上面的描述性分析,而且更新了我們的認知:在10~30這個“標題字數”區間的文章數量最多,而標題字數過多未必是好事。
從上圖可以看出,從1000字開始,閱讀量和正文字數在大體上呈負相關關系,即文章字數越多,閱讀量越小。由此看來,大家都比較喜歡短平快的“快餐式”閱讀,篇幅太長的文章看起來太磨人。
6.1.3 熱門文章特征分析
一篇文章的“收藏量”能在一定程度上反映讀者對該文章的價值度的認可,較高的收藏量能代表該文章的質量屬于上乘。而從一定數量的高收藏量文章中,我們又能間接的從中發掘出讀者的閱讀偏好,進而界定讀者群體的某些特征。
在這部分,筆者篩選出收藏量大于1,000的文章,各欄目合計下來,不多不少,剛好60篇。以下是它們在各欄目下的數量分布情況:
從上表中,筆者發現如下信息:
- “產品經理”欄目下收藏量過1,000的文章數量最多,占到半數;
- “分析評測”下的文章數量不多,但讀者互動最多(平均評論量為90);
- “分析評測”、“交互體驗”、“業界動態”、“原型設計”入圍的文章數量不多,但它們的平均閱讀量較高
以上3點僅是從數值型數據上獲得的認知,但是這些熱門文章到底有哪些特征,我們不得而知。由此,筆者統計了這些熱門文章的標題中的高頻詞,并將其制成關鍵詞云:
從上面的高頻詞,“Axure”、“干貨”、“工具”、“新人”、“7天”、“速成”等高頻詞可以間接的推測出,這些文章的主要面向初學者(按照心理學上的“投射原理”,讀者其實也大都是初學者),以干貨類、工具類和方法論為主題,并透露出濃厚的“成功學氣息”(如“速成”、“7天”、“必學”等詞),具有這類標題特征的文章,堪稱“眼球收割機”,初學者和小白們喜聞樂見,最是喜歡。
6.1.4 文本中一線~五線城市提及次數的地理分布
在該部分,筆者先列出了一個國內一、二、三、四、五線城市的城市名錄,然后在經過分詞處理的333,94篇文本數據中統計這些城市的提及次數(不包含簡稱和別稱),最后制成一張反映城市提及次數的地理分布地圖,進而間接地了解各個城市互聯網的發展狀況(一般城市的提及跟互聯網產業、產品和職位信息掛鉤,能在一定程度上反映該城市互聯網行業的發展態勢)。
經處理,制成的數據地圖如下:
上圖反映的結果比較符合常識,北上深廣杭這些一線城市/互聯網重鎮的提及次數最多。其次是成都、天津、重慶、蘇州和青島這些二線城市,再次是哈爾濱、大連。
總結起來的一句廢話就——互聯網發達的城市主要集中在東南沿海。
上面的數據分析大多數是基于數值型數據的描述性分析,接下來,筆者將利用其中的文本數據做深入的文本挖掘。
6.2 針對“產品運營&數據分析”欄目的專項文本挖掘
因為筆者關注的領域主要是數據分析和產品運營,平時寫的文章也大都集中在這兩塊,所以筆者把這兩個板塊的數據單獨拎出來,從文本挖掘角度,做一系列由淺入深的數據分析。
6.2.1 高頻詞匯TOP200
首先是文本挖掘中最常規的高頻詞分析,筆者從中獲取了TOP200詞匯。
可以看到,大部分是跟“運營”息息相關的詞匯,比如“用戶”、“運營”、“內容”、“APP”、“營銷”、“微信”等詞匯。
單獨看其中的高頻詞TOP30,可以發現,這些詞大部分跟新媒體運營(“內容”、“微信”、“微博”、“文章”等)、用戶(“用戶”、“粉絲”、“需求”、“社群”、“客戶”、“消費者”等)有關系。
將這 TOP 200 高頻詞制成關鍵詞云,直觀地看到其中重要的信息。
6.2.2 Bicluster文本聚類分析
剛才筆者提到了基于關鍵詞歸納主題的做法,在上面的高頻詞中,這種主題特征不甚明顯,因而筆者采用更強有力的Bicluster文本聚類分析,從“數據分析&產品運營”的數千篇文章中“析出”若干“子主題”,并進行“發布年份”&“主題構成”之間的關聯分析。
基于譜聯合聚類算法(Spectral Co-clusteringalgorithm)的文檔聚類,這部分的原理涉及到艱深的數學和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結果。
先將待分析的文本經TF-IDF向量化構成了詞頻矩陣,然后使用Dhillon的譜聯合聚類算法(Spectral Co-clusteringalgorithm)進行雙聚類(Biclusters)。所得到的“文檔-詞匯”雙聚類(Biclusters)會把某些文檔子集中的常用詞匯聚集在一起,由若干個關鍵詞構成某個主題。
正式分析之前,先對保存在Excel中的文本數據做一定的預處理,使用“乾坤大挪移”,將Excel中的文本數據按年份一條條的歸到不同的文件夾下面,具體步驟如下圖所示:
做好預處理后,進行正式的Bicluster文本聚類,結果如下:
上面的分析結果中,Bicluster1的話題區分度不明顯,且僅包含2個文檔和16個關鍵詞,所以排除掉這個主題,僅留下其他5個主題,排除噪聲,從這些子話題中的主要關鍵詞來歸納其要旨。
為了看得更清楚,筆者將這些數據整理成二維表格的形式:
從上表可以看出,“數據分析&產品運營”下的子話題中,涉及“新媒體運營”的內容最多,占到文檔總量的35.62%,其次是“APP運營”和“智能硬件”方面的話題,分別占到文檔總量的23.72%和19.6%。而“數據分析”話題下的文檔數最少。
將子話題和年份進行交叉分析,可以從中了解到各個子話題在各年份的信息分布量,從某種意義上講,也就是話題熱度。
從上表可以看到,“智能硬件”的子話題在2012和2013年的熱度最高,而“APP運營”和“數據分析”在2016和2017年開始火了起來,而“新媒體運營”在近3年也是風光無限。而單獨從2016年來看,除了“智能硬件”方面的話題不火外,其他三個話題均有較高的熱度,達到了近5年來熱度峰值,看來2016年是個特殊的年份。
總體上,除了“智能硬件”這個子話題外,其他3個子話題熱度都呈現出不斷上升的趨勢,當然,筆者假設2017年的4個月過完的時候還是如此。
6.2.3 基于“數據分析&產品運營”語境下的關聯詞分析
接下來進行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進行詞向量模型訓練,然后用來進行關聯詞分析。
Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的關聯性,而不僅僅是基于詞匯之間的共現關系。類似的例子可以參看筆者之前的文章《用數據全方位解讀<歡樂頌2>》、《以<大秦帝國之崛起>為例,來談大數據輿情分析和文本挖掘》。
由此,通過Word2vec,我們可以查找到在“數據分析&產品運營”語境下的各個詞匯的關聯詞。
先看看筆者最關心的“數據分析”,在“數據分析&產品運營”語境下有哪些詞與之關聯度最高,這里采用的method是’predict_output_word’,也就是把“數據分析”單個詞當做語境,預測在“數據分析”語境下的關聯詞。(Report the probability distribution of the center word given the context words as input to the trainedmodel.)
在這種情況下,“數據分析”與自身的關聯度不是1了,因為它可能在一段話里出現兩次。后面關聯度較高的詞匯依次是“統計分析”、“數據挖掘”、“BI”、“Excel”等,從其中的幾個數據工具(Growing IO、神策和友盟等)來看,廠家的品宣軟文做的還是蠻好的。
再來看看“數據挖掘”+“運營”下的關聯詞有哪些,這次采用的method是’most_similar’,結果如下:
結果顯示,這2個詞的組合得到的關聯詞,除了“數據分析”外,還有“精細化”、“BI”、“統計分析”、“(用戶)畫像”、“數據模型”、“指標體系”、“產品策劃”等關鍵詞,它們是數據運營中涉及較多的概念。
下面是“pm”和“運營”的共同關聯詞,它們能較好的說明運營和產品之間的存在的某些“公共關系”。
本來,這兩個職位由于跟進流程多,涉及面廣,需要干各種“雜活”,因而很多產品或運營抱怨自己就是 “打雜”的。近一段時間,互聯網界某些專家適時造出“全棧產品”和“全棧運營”這兩個新概念,認為必須在這兩個崗位上掌握更多的“斜杠”技能,熟諳相關領域的各個“工種”,最好精通各個流程。要做好這兩個“非技術”的崗位,很多方面不僅要“略懂”,還要扮演“多面手”的角色,比如“技術開發”、“產品策劃”等,如此才能在實際工作中“獨當一面”。
接下來,筆者從中挑選出出90個跟“數據分析”具有較高關聯度的詞匯,看哪些詞匯在該語境下中提及次數最多,以及這些詞之間的共現關系(Co-occurrence Relation),通過詞匯鏈接關系的多寡,找到重要性程度最高的詞匯。
從字體大小來看, “數據”、“數據分析”、“運營”、“數據挖掘”“數據庫”、“預測”等詞鏈接的詞匯最多,它們的重要性程度在這90個詞匯中的重要性程度最高。
從顏色上來看,這90個詞根據“關系親疏(共現關系)”聚集為5個社群(Community),最為突出的是3個社群,分別是:
- 橙色系的“SPSS”和“SAS”,數據分析工具類;
- 紫色系的“數據”、“數據分析”、“數據挖掘”等,數據分析相關重要的概念;
- 綠色系的“營銷”、“社會化媒體”、“監測”等,品牌營銷類。
其中,“社會化媒體”與“營銷”之間的線條最為明顯,代表它們之間有很強的關聯度—因為社會化媒體正式營銷活動的載體,營銷活動必須在各類社會化媒體(微信、微博、頭條號等)實施。
6.2.4 Lexical dispersion plot(詞匯分散圖)
接下來,筆者想了解“產品運營&數據分析”欄目中的某些詞在2012.05~2017.07之間的數量分布情況,以及它們出現的位置信息(the location of a word in the text),這時可以利用Lexicaldispersion plot(詞匯分散圖)進行分析,它可以揭示某個詞匯在一段文本中的分布情況(Producea plot showing the distribution of the words through the text)。
筆者先將待分析的文本按時間順序進行排列,分詞后再進行Lexicaldispersion plot分析。因此,文本字數的累積增長方向與時間正向推移的方向一致。圖中縱軸表示詞匯,橫軸是文本字數,是累加的;黑色豎線表示該詞匯在文本中被提及一次,對應橫軸能看到它所處的位置信息,空白則表示無提及。
從上圖可以看出,在近4,500,000詞匯量的文本中,“運營”、“微博”和“電商”在近6年里的提及次數極高,中間的間隙較少,貫穿始終,它們是作家談論最多的三個詞匯/話題。像“新媒體”、“微信公眾號”、“用戶運營”、“社群”等詞匯,在頭兩年的提及熱度不高,但后來居上,提及量呈現逐漸上漲的趨勢。而“BI”、“CRM”在近六年內呈零星分布,提及量較少,在“產品運營&數據分析”欄目中屬于冷門話題。
6.2.5 利用DTM模型(Dynamic Topic Models?)分析主題下的熱點變遷
上面的分析是針對某個詞匯的時間動態分析,這里筆者要分析的是某個話題隨時間的變遷情況(This implements topics that change over time)。筆者運用的模型是DTM模型 (Dynamic Topic Models?),它是“概率主題模型”家族的一員,用于對語料庫中主題演變進行建模。
它基于這樣的假設:
蘊含時間因素的主題,盡管它包含的關鍵詞會隨著時間的變化而產生相應的變化,但它如構成要素不斷更新換代的“忒修斯之船(The Ship of Theseus)”一般,即使同一主題下的開端和末尾中的主題詞沒有一個是相同的,但還是原先的主題,保留有相同的語境。(By having a time-basedelement to topics, context is preserved while key-words may change.)
首先,從“產品運營&數據分析”中“解析”出如下6個子話題,它們是“運營”、“商業模式”、“流量運營&數據分析”、“品牌營銷&數據分析”、“電商運營”和“內容運營”,如下表所示:
筆者對Topic2,也就是“流量運營&數據分析”在2012.05~2017.07間的話題變遷情況感興趣,于是將這6年間出現的主題詞重新整合,制成下面的熱力圖:
上圖中縱軸是主題詞,橫軸是年份,顏色由淺入深代表數值的由小到大。從中可以明顯的看出,“流量運營&數據分析”子話題下的“數據”、“數據分析”、“運營”和“業務”在該話題中始終處于“核心地位”,保持較高且穩定的word_prob值。而“渠道”、“游戲”、“互金”在近3年的word_prob值有了較大的提升,說明社區的作者在近期比較關注這3個主題詞所代表的領域,間接表明它們在互聯網中的話題熱度呈現上升趨勢。
6.2.6 利用ATM模型(Author-TopicModel)分析作家寫作主題分布
在這個版塊,筆者想了解“人人都是產品經理”上作家的寫作主題,分析某些牛X作家喜歡寫哪方面的文章(比如“產品運營”、“數據分析”、“新媒體運營”等)寫作了啥,主題相似度的作者有哪些。
為此,筆者采用了ATM模型進行分析,注意,這不是自動取款機的縮寫,而是author-topic model:
ATM模型(author-topic model)也是“概率主題模型”家族的一員,是LDA主題模型(Latent Dirichlet Allocation )的拓展,它能對某個語料庫中作者的寫作主題進行分析,找出某個作家的寫作主題傾向,以及找到具有同樣寫作傾向的作家,它是一種新穎的主題探索方式。
首先,先從文本中“析出”若干主題,經過探索,10個主題的區分度正好。根據各個主題下的主題詞特征,筆者將這10個主題歸納為 :“行業動態”、“電商運營”、“商業模式”、“產品運營”、“社交媒體”、“互金產品”、“數據運營”、“用戶研究”、“產品設計”和“新媒體運營”。
同時,在數據處理的過程中,模型建立了作者(author)、主題(topic)及文檔(document)之間的映射關聯關系,以dict的形式保存數據。
模型訓練完畢,先看看筆者自己的寫作主題分布吧。值得注意的是,這里的文檔數據經過甄選,并不是全部的文檔數據,因此數量會少于網站上所看到的文章數。
上面的“Docs”中的元素是文章對應的文檔ID編號按照時間順序排列的,“Topics”中的元素有兩列,一列代表主題,一列代表主題的權重大小。很明顯,筆者的寫作主題主要集中在“數據運營”、“新媒體運營”和“用戶研究”這3個主題上,有些直接從標題即可看出,有些“潛藏”在文章的正文論述之中。
再看看運營大神韓敘的寫作主題分布,很明顯,他側重于寫產品運營方面的干貨文章,而且寫作主題很明確。
再看看另一位專欄作家類類的寫作主題分布,他傾向于寫產品運營、用戶研究和社交媒體方面的文章,看過他文章的人都知道,他尤其擅長基于社區的用戶運營。
再看看另一位運營大神——張亮,他的寫作主題跟類類幾近一致,也是產品運營、用戶研究和社交媒體方面的干貨分享。
接下來,根據上述作者的寫作主題分布,筆者找出與他們寫作相似度最高的作家,為保持準確度,筆者有一個限制條件——發文數量不小于3篇。
結果以表格的形式展示,主要的維度有“作者(Author)”、“相似度得分(Score)”和“文檔數量(Size)”。以下是“韓敘”“類類有話說”和“張亮-leo”的相似作者名單TOP10,限于篇幅,筆者就不做過多分析了。
6.2.7 LSI相似標題索引
最后,筆者想通過文章標題之間的語義相似關系來找到相同主題的文章,而這種語義相關性不僅僅是字面上的(不包含相同的詞匯,但其中的詞含義相近)。利過LSI(Latent Semantic Index,潛在語義索引)就可以做到這一點。
通過“詞袋模型(bag-of-words)”將語句映射到特定的Vector Space Model (VSM)中,比較語句向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細的原理推導,小伙伴們可以自行Google腦補。
從標題中找出主題相似的文章,檢索感興趣的內容,不僅僅是通過關鍵詞檢索,潛在語義分析。
在這里,筆者先后對如下三篇文章進行LSI語義索引:
- 當數據分析遭遇心理動力學:用戶深層次的情感需求浮出水面(萬字長文,附實例分析)
- 萬字干貨|10款數據分析“工具”,助你成為新媒體運營領域的“增長黑客”
- 數據運營實操 | 如何用聚類分析進行企業公眾號的內容優化
結果顯示如下:
從上面的索引結果可以看到,搜尋到的語句和原語句之間即使沒有包含相同的詞匯,但語義上是相關的,分別從屬于4“用戶研究”、“運營實操根據”和“內容運營”這三個話題。筆者通過這種文本相似度索引,就可以找到自己感興趣的內容,進行更進一步的文本挖掘。
結語
限于篇幅,上述許多模型的用途/使用場景,筆者并未展開詳說,比如Lexical Dispersion Plot、Bicluster文本聚類和DTM模型可以預測詞匯和主題的熱度,從而為寫作選材和熱點追蹤提供參考;而LSI相似文本索引和ATM模型可以在內容創作中進行競品分析,找到與筆者寫作主題相近的作家和內容進行針對性的分析,知己知彼,做好自己的寫作風格定位。
拿筆者的分析實踐為例,在“數據分析”欄目中,采用上述分析手段,筆者發現相關文章大都是理論型和設想型的論述,缺少真實的數據分析實例支撐,真正投入到實際工作中的效果也未可知;同時,很多是常規的、基礎性的數值型分析,介紹的工具則是Excel、SQL、SPSS,難以滿足當今大數據背景下的數據分析實踐。因此,筆者的寫作風格傾向于“少許理論+實操”,盡量少扯“看起來對、看過就忘”的理論,在數據分析工具和方法的使用上盡量做到多樣化,實例分析不為得出具體的結論,重在開拓讀者的數據分析思路,授人以魚。
最后,透過上面的外部數據分析實例,筆者還想再扯點無關的:
- 要厘清不同數據類型的特征,如本例中的數值型數據、文本型數據以及從中抽取的關系型數據,對其采用合適的分析思路和挖掘方法;
- 數據分析的方法要盡可能的多樣化,如本例中采用了多種分析方法和模型,如交叉分析、高頻詞分析、關鍵信息抽取、詞匯分散圖分析和ATM模型等;
- 在分析層次上,以業務邏輯為軸線,由淺入深,由簡入繁,由表及里,既有描述型的統計分析,也有診斷型的數據挖掘,還有基于演變規律(如動態主題模型)的預測型分析。
數據來源及參考資料:
1. 數據來源:人人都是產品經理,http://www.aharts.cn
2. Kemal Eren,An introduction to?biclustering, http://www.kemaleren.com/an-introduction-to-biclustering.html
3. Ofir Pele and MichaelWerman,?A linear time histogram metric for improved SIFT matching,2008.
4. Matt Kusner et al.?From Embeddings To Document Distances,2015.
5. Michal Rosen-Zvi, Thomas Griffiths et al. The Author-Topic Modelfor Authors and Documents
6. David Hall et al.?Studying the Historyof Ideas Using Topic Models
7. D.Blei and J. Lafferty. Dynamic topicmodels. In Proceedings of the 23rd International Conference on MachineLearning, 2006.
#專欄作家#
作者:蘇格蘭折耳喵,微信公眾號:Social Listening與文本挖掘,人人都是產品經理專欄作家。數據分析愛好者,擅長數據分析和可視化表達,喜歡研究各種跟數據相關的東東。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Pixabay,基于 CC0 協議
好文章啊,謝謝大牛分享
好文章,大神好牛!
謝謝??
花了至少4個小時看了你的兩篇文章… 打開了新世界的大門 另,大神你的微信公號配圖也太丑了略略略:P
公眾號配圖,具體是哪張呢?我好改進,我的微信號g18818233178,歡迎真.讀者向我吐槽 ??
文章干貨滿滿、深入淺出,對于新人十分友好。不過有一點請教作者,把網站里所有的文章抓取下來,使用的是哪款工具或者哪種辦法,可否專門出一篇文章講講內容抓取這一塊。
兩種方式:編程語言寫爬蟲;利用八爪魚、火車頭這樣的工具抓取數據
利用DTM模型(Dynamic Topic Models )分析主題下的熱點變遷中,是依據什么分出不同主題的,又是如何進行主題詞權重統計的
主題提煉的核心部分是吉布斯采樣技術,跟LDA模型類似的算法,是無監督的,權重是每個詞可能出現在該主題內的概率
請問,詞匯分散圖是用什么工具處理的
nltk
利用周末學習數據分析,看了兩小時專業書實在看不下去,于是就來折耳喵這里了(訂閱好久了沒仔細看,只是覺得高上大),沒想根本剎不住車啊,看到現在晚上7點多了根本停不下來。憋攔我,朕還要接著學。
成為學霸的節奏,加油哦
只有66666
666,很厲害!
?? 作者應該學過技術吧,會自己寫代碼,NLP 深度學習技術很熟練啊,這不是一般運營能夠企及的,不過分析思路杠杠的。佩服作者的動手能力??待R。
過獎了,也沒學多久,工作所學,半路出家學了點 ??
太專業了,6鍵已壞,過馬路老奶奶都不扶,就扶你。
你在這回答也是亮了,路邊美女摔倒了我都不服,就服你
太干了,得周末翻出來仔細研究一遍,大神 ?? 求勾搭啊
都說很干,先碼了有空看
作者大大在介紹DTM模型時,提到了“特修斯之船”,好贊,它可是古希臘的一個著名悖論:特修斯之船(The Ship of Theseus),最為古老的思想實驗之一。最早出自普魯塔克的記載。它描述的是一艘可以在海上航行幾百年的船,歸功于不間斷的維修和替換部件。只要一塊木板腐爛了,它就會被替換掉,以此類推,直到所有的功能部件都不是最開始的那些了。問題是,最終產生的這艘船是否還是原來的那艘特修斯之船,還是一艘完全不同的船?如果不是原來的船,那么在什么時候它不再是原來的船了?
本喵是不是有點博學多才,哈哈 ??
文中說網站評論太少,嚇得我趕緊來評論 ??
哈哈,看文再評論,是一種美德
抱歉- -眼瞎了。
所以樓主的公眾號或者微信留在了哪里0 0?? ??
有點干,的找個時間慢慢看,慢慢消化
嗯,不急,慢慢看
真干,像讀了一篇論文。。。
你沒看錯,就是一篇論文,數據分析本來就是嚴謹的玩意,有理有據,數據來源、原理出處都得標明,概念也需界定清楚
看的腿有電軟
頂住,站好咯 ??
看了戰狼2“大數據輿情分析”那篇文章的反響,再看這篇分析的反響,深感“大數據輿情分析”還要走便民路線啊,新浪微輿情的所有模塊截個圖,就是足夠資深的數據分析師了嘛……
偶爾追個熱點就好,但數據分析總要有點深度的,哈哈哈
也是同感,雞湯易消化,但營養不足,還是干糧頂餓···
?? 好干,有點噎著了,消化不良
那就對了,看得太爽,看的太舒服的文章,很可能是雞湯,讓你讀起來渾身不舒服的文章才是苦口良藥,哈哈哈 ??
這個干貨寫的非常的好
哈哈,過獎了 ??