【干貨】用大數據文本挖掘,來洞察“共享單車”的行業現狀及走勢

49 評論 46540 瀏覽 177 收藏 34 分鐘

對于當下共享單車在互聯網界的火熱狀況,筆者想從大數據文本挖掘的角度來做一番分析,主要是從海量的文本數據中找到有價值的訊息和觀察視角,透過文本挖掘了解共享單車相關的熱門話題和潛在趨勢。

2016年底以來,國內共享單車毫無征兆的就火爆了起來,彼時一張手機截屏躥紅網絡—在這張截圖上,24個共享單車應用的圖標霸滿了整個手機屏幕,昭示著共享單車市場搶奪大戰的激烈和殘酷。

再看看一組來自易觀千帆的數據:共享單車領域兩大巨頭—摩拜單車和ofo近一年的客戶端用戶增長數據,二者的用戶增長曲線別無二致,都是一路高歌猛進,共享單車領域的火爆勢頭在短時間內不會遏止。

同時,在全國各大城市,在街頭巷尾,在居民小區和創業園區,排滿了各種顏色的共享單車,仿佛一夜之間,共享單車如“千樹萬樹”的梨花一般,盛開到了泛濫成災的地步了。

與此同時,各種亂象也是接踵而至,觸目驚心:人為肆意毀壞單車、車身亂貼小廣告、街上隨意停放…

對于當下共享單車在互聯網界的火熱狀況,筆者想從大數據文本挖掘的角度來做一番分析,主要是從海量的文本數據中找到有價值的訊息和觀察視角,透過文本挖掘了解共享單車相關的熱門話題潛在趨勢。

同時,筆者也希望把一些常用的文本挖掘方法介紹給大家,以便大家在做產品和運營的過程中能派上用場。對于文本挖掘的相關知識在這里就不贅述了,可以參考筆者之前寫的兩篇文章:《數據運營|數據分析中,文本分析遠比數值型分析重要?。ㄉ希?/a>、《在運營中,為什么文本分析遠比數值型分析重要?一個實際案例,五點分析(下)》

以下是本文的行文路線圖和所涉及的文本挖掘方法。

1.數據采集和預處理

在數據采集部分,筆者想采集跟共享單車關聯性強的文本數據,筆者沒有去寫爬蟲去爬取數據,而是用到了XXX信息監測”中的“數據導出”功能,根據設置的關鍵詞檢索邏輯,將所有涉及到共享單車的各類媒體文章的標題、發布時間、媒體名稱、正文及正文分詞等數據下載下來,省去文本數據的清洗和預處理過程,直接進行文本挖掘部分。

在這里,筆者選取了市場上主流的26個共享單車品牌,再加上關鍵字“共享單車”,形成如下的關鍵詞檢索邏輯

共享單車+(永安行 |ofo|小鳴單車 |小藍單車 |智享單車 |北京公共自行車 |騎點 |奇奇出行 |CCbike |7號電單車 |黑鳥單車 |hellobike |酷騎單車 |1步單車 |由你單車 |踏踏 |Funbike單車 |悠悠單車 |騎唄 |熊貓單車 |云單車 |優拜單車 |電電Go單車 |小鹿單車 |小白單車 |快兔出行 |摩拜單車 | 綠游GreenBike)

筆者選取2017-3-1~2017-6-30之間的數據,經由上面的檢索關鍵詞,可以得到我們想要的數據,為節省時間,筆者僅選取“新聞”這一信息來源的文本數據作為分析對象,因為這部分的數據比較符合要求,包含的噪音較小。結果顯示如下:

導出數據之后,結果如下:

上面圈紅的字段是比較重要的分析維度,注意,導出的文章正文數據已經經過系統分詞去停用詞處理,直接省去了文本預處理所要耗費的時間。

筆者再對其中的數據進行去重處理—去掉“標題/微博內容”和“正文切詞”相同的部分,再從“發布日期”中提取出“月份”字段(用于后面的按月份分類文本),最終得到如下結果:

由此,原先的數據量從30W+的數據量減少到88,291條數據。

2 常規描述性數據統計

在正式的文本分析之前,筆者再對上述預處理后的數據進行描述性分析,先從表層獲得這些數據的直觀印象。

首先是這4個月有關共享單車的文章數量的分布情況,如下圖所示:

可以看到,中間兩個月的發布文章數量最多,3月份的數量最少。

經統計,共有4056個媒體發布了跟共享單車有關的文章,在Excel中使用“數據分析-描述統計”對這些媒體發文數據進行描述統計,得出如下結果:

由此可見,在文章總數88,291篇、發文媒體4,056個的情況下,平均每個媒體的發文數約為22篇(21.66),其中的中位數為3篇,眾數為1篇,最大發文數為4,815篇。結合下面的直方圖,數量分布呈現明顯的左偏態,主要集中在“0-300篇”這個區間內(其中絕大部分為1篇)。

再來展示發文數量TOP30媒體的情況。排名榜首的是突襲網,它是一個信息資訊“大雜燴”(上面有各類轉載過來的信息和琳瑯滿目的廣告,而且經常不標明信息來源……),其次是騰訊新聞、搜狐媒體平臺、新浪和網易這樣的綜合信息門戶網站。有點意外的是,漢豐網(www.kaixian.tv)的關于共享單車的發文量竟然排在第四位,它原名“開縣新聞網”,原本是一個地方性質的媒體,于2010年成立,為把網站建設為報紙、電視、電臺“三網合一”的網絡媒體,漢豐網全面整合開縣主流媒體資源,單從發文信息量這點來說,該網站發展著實迅猛。

對于接下來的文本數據挖掘,筆者用到的是Python,以及常用的數據科學分析包,如jieba、sklearn、gensim、snownlp等。

3 關鍵詞提取

在這部分,筆者除了對上述經分詞處理的正文文本進行詞頻統計的同時,還用到了信息檢索領域里的TF-IDF(Term Frequency–Inverse Document Frequency)關鍵詞統計方法:它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

由此可見,在提取某段文本的關鍵信息時,關鍵詞提取較詞頻統計更為可取,能提取出對分析文本具有重要意義的關鍵詞。

根據上面的闡述,權重值大小與詞頻數不呈正比。對這88,291篇文章的關鍵詞提取和詞頻統計如下。

從上表可以看出,提取出的關鍵詞跟共享單車的關聯性很明顯,大致上有如下幾類:

  • 共享單車的品牌及其創始人:“小黃車”(ofo)、“摩拜單車”、“永安行”、“小鳴(單車)”、“胡瑋煒”、“戴威”等。
  • 投融資、資本運作:“資本”、“投資”、“融資”、“戰略”、“資金”、“金融”、“商業”、“投資人”、“合伙人”等。
  • 政府對共享單車行業的監管:”政府”、”規范”、”監管”、”車管”、’城管“、‘機動車”、”車道”、“秩序”、”政策”等。
  • 共享單車運營相關(包括其中出現的問題):”投放”、”運營”、”停車”、”支付”、”手機”、”擁堵”、”街頭”、”開鎖”、”地鐵站”、”環境”等。

然后根據這些詞的詞頻大小制作出共享單車形狀的個性化詞云,顯示如下:

關鍵詞的提取只是獲取這些文本訊息的“初の印象”,好戲還在后頭!

4 LDA主題模型

如果小伙伴們覺得上面筆者用關鍵詞劃分主題的做法有點扯淡,表示不服,那么筆者將拿出LDA主題模型來“回擊”你,操作之前,先來簡單科普下LDA主題模型到底啥玩意。

由于LDA屬于概率主題模型的子類,那就先從“概率主題模型”說起:

概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,近年來在文本挖掘領域得到了非常廣泛的應用,在文本分類、信息檢索等相關領域取得了非常好的應用效果。概率主題模型的基本原理認為文檔是若干主題的混合概率分布,而每個主題又是一個關于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項方法當中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。

LDA是一種典型的無監督(也就是說,我們事先不知道每段文本里面說的是啥,每個文本沒有啥標簽)、基于統計學習的詞袋模型,即它認為一篇文檔是由一組詞構成的一個集合,詞與詞之間沒有順序以及先后的關系。一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。主題模型通過分析文本中的詞來發現文檔中的主題、主題之間的聯系方式和主題的發展,通過主題模型可以使我們組織和總結無法人工標注的海量電子文檔。

類似Kmeans聚類,LDA模型的主題數也需要人工來確定,筆者在嘗試了多個主題數之后,確定了最終的主題數,從下面的LDA可視化圖形可以看出,主題數為6時,很多主題所涵蓋的關鍵詞出現嚴重的重疊,而分成10個主題后,情況得到好轉,話題區分度尚能接受。

下圖“打印”出這10個主題及其下轄的20個關鍵詞,以“權重值*詞匯”的累加形式呈現,各個權重值其實是該詞匯在指定主題下出現的概率大小,也可以理解為該詞對該主題的“貢獻”程度,比如TOP0中的“孩子”前的權重系數為0.008,表明在TOP0的話題下,“孩子”被“抽中”的概率為0.008。依次類推,各個詞語w在主題T下出現的概率分布稱之為詞分布,這個詞分布也是一個多項分布。

對于上圖中的主題詞列表(表示與各個潛在主題最為相關的一些詞語),筆者還進行了可以點擊交互的可視化展示,可以看到每個主題下的關鍵詞在該話題下及總的文本中的占比情況,從中可以看出某個詞對于該主題的重要程度如何。如下圖中TOP1下的關鍵詞“摩拜”,在該主題中出現的概率最大,重要性最高,紅色條柱代表它在TOP1下的比重,而藍色條柱的是它在整個文本(88,291篇文章)中的比重。某個詞對該主題重要性最顯著的情況是:藍色條柱更短、紅色條柱越長,這類詞更能對主題進行區隔。

將上述TOP及其下轄的主題詞進行整理,排除主題中的“噪音”(明顯跟主題不相關的詞匯異常點),根據其中的詞匯構成(不僅僅是下列展示的20個關鍵詞,還包含后續的若干主題關鍵詞)及相關媒體報道,得出這10個主題的大致“內涵”:

主題對應的具體內容如下表所示:

?5 文檔聚類

接下來采用的是基于譜聯合聚類算法(Spectral Co-clustering algorithm)的文檔聚類,這部分的原理涉及到艱深的數學和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結果。

先將待分析的文本經TF-IDF向量化構成了詞頻矩陣,然后使用Dhillon的譜聯合聚類算法(Spectral Co-clustering algorithm)進行雙重聚類(Biclusters)。所得到的“文檔-詞匯”雙聚類(Biclusters)會把某些文檔子集中的常用詞匯聚集在一起,由若干個關鍵詞構成某個主題。

在正式分析前,現將先前Excel中的正文分詞文本按月份進行分類,將其單獨放進所屬的月份文件夾下,操作如下圖所示。

最終的結果是,系統自動形成的幾個文檔簇群,以及每個簇群下面最重要的TOP30關鍵詞。結果如下圖所示:

翻譯一下,說人話就是:

上面的每一個Bicluster類別都可以看做是一個話題,這里可以量化的看到每個話題在總文本中的成分占比(通過文檔數量或關鍵詞數量來判定),也可以了解該話題在這4個月上的成分分布情況。從上圖中可以看到,3-6月這四個月間的若干文本在Biclusters下分為4個話題。可以看到,基于Biclusters聚類的話題區分度明顯要好于上述的LDA主題模型,而且很神奇的是,類別相近的詞匯會自動聚集在一個話題下,橫跨這8W+個文檔!

上面四個話題可以很容易的得出:

  • Biclusters類別0:共享單車相關的創投、資本和競爭相關,行業的視角
  • Biclusters類別1:共享單車相關的行政監管、整治,政府的視角
  • Biclusters類別2:共享單車運營中出現的各種社會問題,社會的視角
  • Biclusters類別3:共享單車方面的負面信息,很多已經上升到違法違規,甚至觸犯刑法的層面了,法律的視角

由上面的數據,還可以得到這4個話題在總文本中的占比情況。

從上圖可以看出,Biclusters類別1的比重最大,也就是4個月間關于共享單車行政監管方面的文章較多,共享單車在市場運營過程中的各類問題已然引起社會和有關部門的高度重視,各種行業亂象亟待整治和肅清。

將話題和月份進行交叉分析,可以看到每個月份下關于共享單車報道的話題構成情況。

比如,4月份有關共享單車的各種社會問題的媒體報道較多,而6月份對共享單車行業方面的報道居多。剩下的請小伙伴們看表說話,自行腦補,我就不廢話咯。

6 情感分析

筆者在新浪微輿情“信息監測”上觀察到,3~6月間關于共享單車的負面信息的走勢情況,顯然,這段時間內的負面信息一直處于一個較高的水平,平均每天好幾W的負面新聞報道量。

緊接著,筆者使用機器學習的方法,對這8W多條文章的標題進行本地的情感分析,以便獲得媒體對共享單車報道的“情感傾向”的總體情況。

這里的“情感傾向”是以一個介于0~1之間的“情感極性值”來表征—如果某條評論的情感極性值越接近于0,說明它的負面情感傾向越明顯,越接近于1,說明它的正面情感傾向越明顯,而取值在0.5左右徘徊,這說明這種情感傾向不明顯,是為“中性”。筆者將情感傾向值的取值區間0~1細分為3個子區間,分別對應不同的情感傾向。詳細操作請參考《用數據全方位解讀<歡樂頌2>》的2.1部分。

經整理,將其制作成直方圖的形式呈現:

從上面的直方圖可以看出,情感極性值絕大部分在0.2上的分布最多,而這個分值處在負面情感度的左端,很低的水平。根據上圖顯示,如果要給這段時間內共享單車的總體情感傾向評級(5個級別,“極其負面”、“比較負面”、“中性”、“比較正面”、“極其正面”)的話,那么這個評級接近于“極其負面”。

以下是關于共享單車“三元”情感傾向的占比情況。

由此,再次印證了這段時間內關于共享單車的各類負面報道不斷。

不過,話又說回來,這些都是來自媒體的聲音,而媒體有喜好報道負面訊息的傳統,缺少了廣大網民發聲,對共享單車的輿情分析難免會存在信息失真。對此,筆者選擇了社會化媒體中具有重大影響力的新浪微博作為分析對象,對上面的網民情緒進行總覽。關于社會化媒體方面的大數據分析,小伙伴們可以參看《如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》

下面幾張圖來自新浪微輿情的“情緒地圖”部分,數據來源為新浪微博,為保持時效性,時間區間為近三日。

整體上看,與媒體的報道不同,絕大部分網民對于共享單車的“泛濫成災”是持“喜悅”情緒的,由上面的LDA主題模型可以了解到,“便利出行”是形成這種贊許態度的原因之一。

7 LSI文本相似度索引

在上面的主題分析和文本聚類分析中,“融資”這個關鍵詞出現了若干次,它成功的攫取了筆者的眼球。為此,筆者想通過“融資”這個關鍵詞去找尋與其最相關的TOP20新聞標題。在這里,筆者不采用直接通過關鍵詞查找的方法去尋找這些相關標題,而是通過語義上的關聯性去尋找,也就是說,即使這些語句不包含“融資”二字,只要體現這個含義就是我要尋找的目標。

鑒于此,筆者采用了基于LSI(Latent Semantic Index,潛在語義索引)的方法去查找文本相似度最高的20個語句,大致上比較文本向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細的原理推導,小伙伴們可以自行Google腦補。

經過分析,找到了跟“融資”語義最相關的20條新聞??梢钥吹?,里面很多沒有包含“融資”二字,但意義上都有體現資本運作,比如“共享單車又掀起新一輪‘互掐’”這條新聞,里面有這樣的論述:“公開資料顯示,截至2017年4月,兩家公司共計融資總額超過10億美元,其中ofo剛剛完成D3輪融資,估值超過16億美元”,第二個“…ofo共享單車獲4.5億美元”,也是講的融資方面的新聞,剩下的相似語句以此類推。

從這些新聞標題來看,共享單車領域的競爭不僅出現在用戶獲取和地盤爭奪上,在資本領域的也是刀光劍影,撕得不可開交。

由此可以看到,計算機通過LSI算法變得“聰明”了不少,在某種程度上,能“理解”自然語言了!

8 Word2vec

最后進行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進行詞向量模型訓練,然后用來進行關聯詞分析。

Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的關聯性,而不僅僅是基于詞匯之間的共現關系。類似的例子可以參看筆者之前的文章《用數據全方位解讀<歡樂頌2>》、以<大秦帝國之崛起>為例,來談大數據輿情分析和文本挖掘》。

首先,筆者對共享單車的2大巨頭—摩拜單車、ofo(小黃車)及其各自CEO的相關詞匯感興趣,分析結果如下:

從上圖可以看出,跟“胡瑋煒”、“摩拜”最相關的詞匯是“陳偉鴻”,是中央電視臺的主持人、記者、編輯、制片人,而胡瑋煒畢業于浙江大學城市學院新聞系,在《每日經濟新聞》、《新京報》、《商業價值》等媒體做過記者和報道。也就是說,他們有著類似的從業經歷,而且在6月25日的央視《對話》節目中,作為主持人的陳偉鴻與作為嘉賓的胡瑋煒有了交集。排在第二位的是她的對手ofo的CEO戴威。

值得注意的是,出現在關聯詞列表中的 “(王)曉峰”,曾任職Uber上海城市總經理,是摩拜單車大股東李斌“邀請”來擔任摩拜CEO一職的,理由是媒體出身的胡瑋煒在經營層面缺乏經驗,由此業界傳聞“王曉峰是資本派來的管家”不脛而走?!皶苑濉焙竺婢o隨“昆侖決”,根據語境來講,這里的“昆侖決”應該不是實指青海衛視的那項世界職業搏擊賽事,而是用以隱喻共享單車行業競爭激烈的現狀,而且這種具有畫面感的語義聯想在媒體的報道中比較頻繁。

而ofo及其創始人最相關的詞依次是摩拜單車、胡瑋煒、(王)曉峰、CEO、小藍單車、悟空(單車)這些詞,多是對手。也涉及了其海外擴張戰略的相關詞匯,如“全球”“海外”“投放”等。

而跟“摩拜”和“ofo”相關的詞多是反映這個行業現階段的特征,如“(圈地)投放”“(爭搶)用戶”、“入駐(城市、小區和國外等)”、“公司”、“數量”、“市場”和“大戰”等,還有它們的對手“小藍單車”“小鳴(單車)”、“哈羅單車”等。

加入“大戰”之后預測出來的關聯詞匯,就更能反映共享單車這個行業競爭的硝云彈雨了,在用戶和資本領域競爭的火藥味十足。

結語

在上面的各類文本挖掘中,反復出現一些關鍵詞和主題,如“亂象”、“監管”、“愈演愈烈”等,給筆者一個最直觀的印象是“山雨欲來風滿樓”,共享單車這個行業已經到了“洗牌”的時間了:

經過幾個月的火熱期,共享單車領域硝煙彌漫,競爭的號角此起彼伏,在共享單車將觸角伸向城市各個角落的同時,各類社會亂象、人性考驗和法治問題接踵而至,政府也被迫由先前的大力倡導到謹慎的規范引導,行業的集聚特征也越來越明顯,或許可以大膽猜想一下,像之前的團購、拼車和外賣這些領域,由資本推動,從“千帆競過”到“百團大戰”,再是“三足鼎立”,最后“三家歸晉”?

欲知后事如何,我們姑且看之。

參考資料及分析工具:

  1. ?新浪微輿情,信息監測、情緒地圖(數據采集及來源,情緒分析)
  2. 易觀千帆(APP用戶數據)
  3. Gensim官網,https://radimrehurek.com/genism
  4. PiotrBojanowski,EdouardGrave, Armand Joulin ,TomasMikolov,Enriching Word Vectors with Subword Information
  5. 勞鑫,馬寶君,張楠,萬巖,基于概率主題建模和深度學習的公眾輿情分析
  6. YoavGoldberg,wordembeddings—what, how and whither
  7. AnnaHuang,SimilarityMeasures for Text Document Clustering
  8. Python(jieba、snownlp、gensim、sklearn、wordcloud)

#專欄作家#

蘇格蘭折耳喵,微信公眾號:Social Listening與文本挖掘,人人都是產品經理專欄作家。數據分析愛好者,擅長數據分析和可視化表達,喜歡研究各種跟數據相關的東東。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 這位老師做的工作感覺差不多和我上篇文章做的工作差不多了,老師我覺得你可以去發個SCI試試哈哈哈,想問一下老師還有比LDA更優秀的主題建模模型推薦么?因為發現現在很多研究的文章都使用LDA,不知道能不能有些新意?所以想問問大牛關于這種現象的看法?謝謝解答,最近看到您的文章作為一個小小的本科生很有啟發!

    來自江西 回復
  2. 折耳貓老師,您好。我最近要帶領一群中學生做關于普通人群對于共享單車的安全意識的調查,您寫的一些資料,比如對于“安全”“法律”之類的數據,對我很有幫助,雖然我不會用于其他的一些網絡宣傳途徑,只是用于教學上,也會備注您的名字,希望獲得您的授權。

    來自廣東 回復
    1. 好的,沒問題的。

      回復
  3. 好厲害,好像學,不知道怎么開頭

    來自浙江 回復
  4. 很多圖感覺這里做出來的顏色撘配很好呀!厲害厲害

    回復
    1. 絕大部分是excel做的哦

      回復
    2. 好厲害呀,我也想做個類似的調查,能不能把使用的所有工具都分享下啊,從分詞開始

      回復
    3. 這得會coding才行。。。

      回復
  5. 感覺好像很厲害。。 但是仔細看了會覺得,似乎這個結論不需要大數據挖掘也可以得出啊。。 而且如果說數據更精確,也是由收集的信息有關,但是1 這些新聞本身客觀度如何?準確度如何? 2 新浪微博網民所發布的內容,一是會來吐槽的網民本身占用戶數量比例多少?二是人一般都是更傾向于宣泄負面的情緒,而對體驗良好的東西反而很少主動去談,那這樣本身就會使判斷往負面傾斜。 我的意思是,洞察力似乎并不一定要由大數據得來,因為大數據本身的準確性就不是精準的。

    來自福建 回復
    1. 好吧,遇到真噴子了,那我,勉為其難的來逐條回應你吧:1 寫這篇文章我只是舉一個實例,真正產生業務價值的數據分析文章,那是付費的,涉及商業機密我不會放在這里的;2 如果你在公司做產品,做運營,你無憑無據,說這個產品應該這么做,很符合常規嘛,同時會聽你的嗎?貌似對和實際對是兩碼事,需要用洞東西支撐的;3 我用的根本不是新浪微博的數據,是各個主流媒體的長文章,不是網民發的,相對客觀;3 “洞察力似乎并不一定要由大數據得來,因為大數據本身的準確性就不是精準的”,恕我爆粗,大數據預測不準,難道你用屁股決策就準嗎?現在天氣預報也是基于大數據,谷歌利用大數據預測流感,而且準確率相當高,你每天購物的商品推薦,機票預訂,都跟大數據有關…如果因噎廢食,不能接受新事物,那還是回去做山頂洞人吧。。。

      來自上海 回復
    2. well , 首先我要說我不是來噴,只是提出質疑進行探討。。 然后您回答的前3點我接受,最后一點,“因為大數據本身的準確性就不是精準的”這句確實是我考慮欠缺,商品推薦這些確實精準,但我這句話實際上想表達的意思是,洞察力是無法由大數據得來的,就像您第2點所說,大數據是個支撐,但不能成為出發點,就好比科學家提出一個假設,然后大量收集數據進行驗證,然而這個假設本身并不是從大數據得來的。也就是說大數據更適合做已有的產品的延伸優化,很難有創新性的突破。另外您舉的幾個例子除了商品推薦,其他的都是作用于物,而非人。而對于任何產品而言,人才是核心,物只是輔助。最后您如何看待“許多公司、尤其是傳統公司還沒有從大數據項目獲得預期的結果,或者還沒有獲得相當高的投資回報率。大數據投入后收入平均僅僅增加了區區的6%?!??

      來自福建 回復
    3. 補充一句,我并不是要全盤否定數據分析,我也是在學習中,但也許因為還是菜鳥,很多東西考慮不周,看到有疑惑的地方就直接評論了,如果有冒犯之處請見諒。

      來自福建 回復
    4. 首先,我也要說聲對不起,有些表達是過激了。我想說的是,有批判性思維很好,但當對某個領域不太熟的時候,不要輕易下結論,尤其是給予否定。其次,我從來都不否定人的主觀能動性,人腦思考的重要性,諾基亞的slogan“科技以人為本”,說是要用科技服務人類,同時人類在科技的使用上居于主導地位,這是沒有任何問題的。我想說的是,大數據是互聯網時代的基礎設施,是原料不是結果,如何分析,從中獲得洞察,那才是具有科技含量的,我不知道你如何定義洞察,我理解的洞察是,只要能從雜蕪的、無規律的數據和信息獲得有價值的信息,發現人腦難以處理和分析出的東西,那就是insight,那就是洞察,當今很多實例已經印證了這一點,我不想再舉實例了。最后說一句,“許多公司、尤其是傳統公司還沒有從大數據項目獲得預期的結果,或者還沒有獲得相當高的投資回報率。大數據投入后收入平均僅僅增加了區區的6%”,這不是大數據或者數據挖掘的不足,很多時候是使用人的無能。

      來自上海 回復
    5. 嗯,是的,在量的方面人腦的處理遠不及計算機,這點確實可以很好的彌補人腦的不足。我的質疑確實提的過早,還是先去好好學習一下。感謝前輩愿意探討~

      來自福建 回復
  6. 看到結語,才懂你想表達什么。。?!按髷祿谋就诰颉笔潜旧硖呱睿€是所挖掘的文本太凌亂~~

    來自四川 回復
    1. 我也看不懂你說的是什么,你這是想褒還是想貶,文章要表達什么,開篇已經說明白了,你翻回再仔細看看?

      來自上海 回復
  7. 反正看不懂,就知道很高大上

    來自廣東 回復
    1. 哈哈

      回復
  8. 贊一個

    來自湖北 回復
  9. 應屆生打算做運營,給看跪了。。。

    來自浙江 回復
    1. 別害怕,我寫的這些又不是運營必須掌握的

      來自上海 回復
  10. 非常好!大部分都是正在用的,大神如有時間,能不能更多介紹下“譜聯合聚類算法”這個的使用?謝謝!

    來自北京 回復
    1. 這個非常艱深,我看的是國外的外文文獻,到現在還是初窺門徑,建議重視它的實用價值和具體操作,背后的數學原理還是。。。

      來自上海 回復
  11. 你這數據分析技能點都點這么高了?給跪!

    來自北京 回復
    1. 沒事,一年前這塊我也不會呢

      來自上海 回復
    2. 沒事,工作中的需求會推著你往前走的 ??

      來自上海 回復
    3. 求推薦一些入門書籍和網站吧,我最近也在自學這個方面呢

      來自北京 回復
    4. 書看得少,國外的博客看得多,根據工作實際去有針對性的檢索有價值的信息就好。

      來自上海 回復
    5. 國外的博客?翻墻看是嘛

      來自北京 回復
    6. 是的,用翻墻軟件即可

      來自上海 回復
  12. 給跪,雖然有些地方不懂,但是感覺很高大上呢~

    來自北京 回復
    1. 等工作或學習中有實際需求了,你就懂了

      來自上海 回復
  13. @折耳貓,往往人人噴子多,caff的回復真誠些

    來自北京 回復
    1. 沒事,就是希望大伙們多提點意見,我好改進嘛,哈哈

      回復
  14. 大神,我服,順便問下大神的python技能點到多少了?

    來自湖北 回復
    1. 沒多少,入門不到一年,但每天都用

      回復
  15. 厲害了,但是看不懂

    來自江蘇 回復
    1. 有實際需求了,你就會看懂了

      回復
  16. 哎,運營都像搞研究一樣

    回復
    1. 干啥都得琢磨和研究,不然就會像驢子拉磨一樣,干N年沒有實際提升,一直路徑依賴。

      回復
  17. 恕我直言,你的結論是啥?

    回復
    1. 結論文末有哈,這篇文章的本意是想介紹常用的文本挖掘方法,至于案例,那是插播的??????

      回復
  18. 感覺理論和工具都挺充實的,但是結論的話似乎可以再挖掘下!

    來自上海 回復
    1. 結論其實仔細看完就會不言自明,既然都這么說,我有時間把結尾再修繕下??????

      回復
  19. 嗯,非常好,我反正看不懂 ??

    來自重慶 回復
    1. ??????

      回復
  20. 這廣告插播插的。。。

    來自上海 回復
  21. 喵~ 你微信號多少,來一發。 ??

    來自廣東 回復
    1. g18818233178 ??

      來自上海 回復