今日頭條讓人上癮的數據挖掘
編輯導語:“今日頭條”是一款基于數據挖掘技術的個性化推薦引擎產品,它為用戶推薦有價值的、個性化的信息,提供連接人與信息的新型服務,是國內移動互聯網領域成長最快的產品之一。今日頭條的數據挖掘雖然可以精準的推薦我們所喜歡的內容,但同時也像精神鴉片一樣令人上癮,本文作者基于此做出了他的分析。
由于某一些不可抗拒的力量,讓今日頭條的產品在海外受阻,同時還有其他的企業。但是,我們對于這些力量看看就好。
本文將從兩個角度即:產品+技術的層面來看看今日頭條和抖音,讓我們對今日頭條的產品有個了解。
當然僅限我個人在有限的資料以及認知層面,進行淺顯的分析,首先我們需要知道兩款產品都有著相似的一點,就是好玩同時能夠讓每個人(全世界)都喜歡。
抖音表現出一款好的產品是能夠讓所有人都能夠完全的自由創作,記錄每個人的生活。
在開始之前我們需要對于抖音和今日頭條的數據有個大致了解,以下兩組數據記錄了抖音和頭條的發展歷史。
今日頭條:一款基于數據挖掘的推薦引擎產品。
截至2015年12月,今日頭條累計擁有激活用戶3.5億,日活躍度超過3500萬。
其中,“頭條號”平臺的賬號數量已超過4.1萬個,各類媒體、政府、機構總計超過11000家;簽約合作的傳統媒體過千家,“頭條號”自媒體其賬號總數超過3萬個。
抖音:技術層面一樣的搜索引擎。
自2016年9月于今日頭條孵化上線,定位為適合中國年輕人的音樂短視頻社區,應用為垂直音樂的UGC短視頻,2017年以來獲得用戶規模快速增長。
抖音國際版TikTok的下載和安裝量曾在美國市場躍居第一位,并在日本、泰國、印尼、德國、法國和俄羅斯等地,多次登上當地App Store或Google Play總榜的首位。
據抖音產品負責人王曉蔚2017年9月2日表示:“85%的抖音用戶在24歲以下,主力達人和用戶基本都是95后甚至00后。截至2018年10月,該應用程序已被150多個國家的超過8億全球用戶下載?!?/p>
2020年5月份Sensor Tower的最新數據顯示,“抖音”及海外“TikTok”,目前在全球App Store和Google Play應用程式商店的總下載次數已突破20億次。
這兩組數據說明了抖音和今日頭條的受歡迎程度,好的產品表現出良好的數據以及用戶增長,讓我們產品經理有個學習的榜樣。
接著我們從產品層面來看抖音和今日頭條,主要將兩者相同的部分進行分析。
一、上癮快樂的源泉
今日頭條在剛推出的時候,將每一個新聞盡可能的推薦給適合他的人;同樣的技術應用到抖音上面,就會出現同樣的效果。
如果今日頭條的算法成功的體現,那么我們就可以看看抖音效果,今日頭條的試水產品讓自己的抖音成為全世界最受歡迎的短視頻社交產品。
不管是抖音還是今日頭條,每個用戶都能刷到自己喜歡的內容,沒有自己不喜歡的內容。
如果上班使用微信或者是QQ進行溝通交流,每個人處于一種壓力狀態下面;抖音則正好相反,每個人沒有工作的煩惱以及壓力,在休息或者下班時間都會打開抖音或者今日頭條,在一種無壓力下狀況下進行放松娛樂。
我們都知道快樂是好的,都喜歡快樂的感覺,同時上癮的快樂還是好的嗎?
當我們一味的追求在抖音上面的快樂,消耗自己的注意力,就像我們想要著急完成工作,然后打開抖音在上面看短視頻。我們基于逃避,著急逃避那個帶著壓力的工作環境,同樣的簡單的逃離會加深我們的這種感覺。
這種感覺會在每時每刻都在,每天加深一遍,也可以說是每天都會重復這種感覺。唯一的辦法就是漸漸的放下抖音或者是今日頭條,降低對這款產品的依賴程度,減少使用抖音的次數以及時間。
二、廣而告之
我們都知道當下流行的就是,有任何的事情找記者,不再是以前的出事找警察叔叔,為什么一個簡單的輿論新聞能夠引起這么大的反響。
首先我們要感謝在這個信息發達的社會和國家,信息發達到讓我們能夠知道誰家的貓丟了,警察全城找,然后上了熱搜。這要感謝背后的粉絲,還是粉絲力量大。
今日頭條和抖音做為媒體平臺,對于上面的內容能夠審核和把控,一部分因素來源是政策。
如果全部開放,像海外市場那種,那么它也將會面臨一系列監管問題。在國內的抖音更多是娛樂性質,同時在上面你不能發表對應的個人自由言論,所以我們看到的是生活,記錄這些不一樣的生活。
關于言論部分我們不進行過多進行討論,我們繼續會到抖音做為媒體的產品背后所包含的輿論部分。
不知我們有沒有發現,輿論的熱點一旦發酵,首先考慮的是禮儀和道德;不管法律多么的嚴厲,都會涉及到一些禮儀和道德。
當然,每個人的道德觀念不一樣,但是大眾的道德觀念會讓所有人跟著一起走,大白話就是符合群體大眾的道德觀念,而不是個體的觀念。如果單個個體持有不同的道德觀念,那么這個熱點的輿論事件你就參與不了。
三、數據挖掘
每個成熟的產品離不開技術的支持,技術和科研不同是,技術是需要 創造價值,而科研是無價值的研究,今日頭條和抖音背后的技術數據挖掘下面會介紹
1. 數據挖掘
是一個跨學科的計算機科學分支。涉及人工智能、機器學習、統計學、和數據庫的交叉方法在相對大型的數據集(data set)發現模式的計算過程。
數據挖掘過程的總體目標是從一個數據集中提取信息,并將其轉換成可理解的結構,以進一步使用。
除了原始分析步驟,它還涉及到數據庫和數據管理方面、數據預處理(英語:data pre-processing)、模型與推斷方面考量、興趣度度量、復雜度的考慮,以及發現結構、可視化及在線更新等后處理本質上屬于機器學習的范疇。
類似詞語“數據捕撈(data dredging)”、“數據捕魚”和“數據探測”,指用數據挖掘方法來采樣(可能)過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體數據集的部分,不過這些方法可以建立新的假設來檢驗更大數據總體。
2. 歷史
資料探勘是因為海量有用資料快速增長的產物。
使用計算機進行歷史資料分析,1960年代數字方式采集資料已經實現;1980年代,關系數據庫隨著能夠適應動態按需分析資料的結構化查詢語言發展起來,數據倉庫開始用來存儲大量的資料。
因為面臨處理資料庫中大量資料的挑戰,于是資料探勘應運而生。對于這些問題,它的主要方法是資料統計分析和人工智能搜索技術。
3. 定義
資料有以下這些不同的定義:
“從資料中提取出隱含的過去未知的有價值的潛在信息”;
“一門從大量資料或者資料庫中提取有用信息的科學”。
盡管通常資料探勘應用于資料分析,但是像人工智能一樣,它也是一個具有豐富含義的詞匯,可用于不同的領域。
它與KDD(Knowledge discovery in databases)的關系是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數據挖掘是KDD通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。
事實上,在現今的文獻中,這兩個術語經常不加區分的使用。
4. 本質
數據挖掘本質上屬于機器學習的內容。
例如:《數據挖掘:實用機器學習技術及Java實現》一書大部分是機器學習的內容,這本書最初只叫做“實用機器學習”,“數據挖掘”一詞是后來為了營銷才加入的。
通常情況下,使用更為正式的術語,(大規模)數據分析和分析學,或者指出實際的研究方法(例如人工智能和機器學習)會更準確一些。
5. 過程
數據挖掘的實際工作是對大規模數據進行自動或半自動的分析,以提取過去未知的有價值的潛在信息。例如:數據的分組(通過聚類分析)、數據的異常記錄(通過異常檢測)和數據之間的關系(通過關聯式規則挖掘)。
這通常涉及到數據庫技術,例如空間索引(英語:spatial index)。這些潛在信息可通過對輸入數據處理之后的總結來呈現,之后可以用于進一步分析,比如機器學習和預測分析。
舉個例子:進行數據挖掘操作時可能要把數據分成多組,然后可以使用決策支持系統以獲得更加精確的預測結果。
不過數據收集、數據預處理、結果解釋和撰寫報告都不算數據挖掘的步驟,但它們確實屬于“資料庫知識發現”(KDD)過程,只不過是一些額外的環節。
數據庫知識發現(KDD)過程通常定義為以下階段:
- 選擇
- 預處理
- 變換
- 數據挖掘
- 解釋/評估
1)預處理
在運用數據挖掘算法之前,必須收集目標數據集。
由于數據挖掘只能發現實際存在于數據中的模式,目標數據集必須大到足以包含這些模式,而其余的足夠簡潔以在一個可接受的時間范圍內挖掘,常見的數據源如資料超市或資料倉儲。
在數據挖掘之前,有必要預處理來分析多變量數據,然后要清理目標集,數據清理移除包含噪聲和含有缺失數據的觀測量。
2)數據挖掘
數據挖掘涉及六類常見的任務:
- 異常檢測(異常/變化/偏差檢測):識別不尋常的數據記錄,錯誤數據需要進一步調查;
- 關聯規則學習(依賴建模):搜索變量之間的關系。例如:一個超市可能會收集顧客購買習慣的數據,運用關聯規則學習,超市可以確定哪些產品經常一起買,并利用這些信息幫助營銷——這有時被稱為市場購物籃分析;
- 聚類:是在未知數據的結構下,發現數據的類別與結構;
- 分類?:是對新的數據推廣已知的結構的任務。例如:一個電子郵件程序可能試圖將一個電子郵件分類為“合法的”或“垃圾郵件”;
- 回歸:試圖找到能夠以最小誤差對該數據建模的函數;
- 匯總(Automatic summarization):提供了一個更緊湊的數據集表示,包括生成可視化和報表。
3)結果驗證
數據挖掘的價值一般帶著一定的目的,而這目的是否得到實現一般可以通過結果驗證來實現。
驗證是指“通過提供客觀證據對規定要求已得到滿足的認定”,而這個“認定”活動的策劃、實施和完成,與“規定要求”的內容緊密相關。
數據挖掘過程中的數據驗證的“規定要求”的設定,往往與數據挖掘要達到的基本目標、過程目標和最終目標有關。
驗證的結果可能是“規定要求”得到完全滿足或者完全沒有得到滿足,以及其他介于兩者之間的滿足程度的狀況。驗證可以由數據挖掘的人自己完成,也可以通過其他人參與或完全通過他人的項目,以與數據挖掘者毫無關聯的方式進行驗證。
一般驗證過程中,數據挖掘者是不可能不參與的,但對于認定過程中的客觀證據的收集、認定的評估等過程如果通過與驗證提出者無關的人來實現,往往更具有客觀性。
通過結果驗證,數據挖掘者可以得到對自己所挖掘的數據價值高低的評估。
數據挖掘的方法包括監督式學習、非監督式學習、半監督學習、增強學習。監督式學習包括:分類、估計、預測。非監督式學習包括:聚類,關聯規則分析。
6. 例子
數據挖掘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時資料探勘系統就在此客戶和真絲襯衣之間建立關聯。
銷售部門就會看到此信息,直接發送真絲襯衣的當前行情,以及所有關于真絲襯衫的資料發給該客戶。這樣零售商店通過資料探勘系統就發現了以前未知的關于客戶的新信息,并且擴大經營范圍。
7. 數據捕撈
通常作為與資料倉庫和分析相關的技術,資料探勘處于它們的中間。
然而有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關系),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯,在統計學文獻里通常被戲稱為“資料挖泥”(Data dredging,?data fishing, or data snooping)。
資料探勘意味著掃瞄可能存在任何關系的資料,然后篩選出符合的模式,(也叫“過度匹配模式”)。大量的數據集中總會有碰巧或特定的資料,有著“令人振奮的關系”。
因此,一些結論看上去十分令人懷疑。盡管如此,一些探索性資料分析?還是需要應用統計分析尋找資料,所以好的統計方法和數據資料的界限并不是很清晰。
危險是出現根本不存在的關聯性,投資分析家似乎最容易犯這種錯誤。
在一本叫做《顧客的游艇在哪里?》的書中寫道:
“總是有相當數量的可憐人,忙于從上千次的賭輪盤的輪子上尋找可能的重復模式。十分不幸的是,他們通常會找到?!?/p>
多數的資料研究都關注于發現大量的資料集中,一個高度詳細的模式。
在《大忙人的資料探勘》一書中,?西弗吉尼亞大學和不列顛哥倫比亞大學研究者討論了一個交替模式,用來發現一個資料集當中兩個元素的最小區別,它的目標是發現一個更簡單的模式來描述相關數據。
參考資料:維基百科
#專欄作家#
李杭,人人都是產品經理專欄作家。關注B端產品,擅長復雜的需求梳理,愛好將復雜難以理解的事物口語化。
本文原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Pexels,基于CC0協議
- 目前還沒評論,等你發揮!