AI產品經理,如何面對數據挖掘?
本文分別先從AI產品需求發現階段、再從AI產品需求設計制造階段對數據挖掘的利用,然后落地到數據挖掘具體的案例解析,最后得出AI產品大數據觀點。
經過多年互聯網和移動互聯網的飛猛發展,科技網絡產品發展到焦慮的時間節點。一方面流量成本高到幾乎沒有投入產出比可言,另外一方面產品和企業同質化競爭激烈。
接下來的趨勢有兩股同方向的產品力量,將是產品經理和企業產品創新的機會點:
- 第一是:利用PC和移動互聯網積累的大數據做打破數據孤島類的產品和數據挖掘,數據分析類的產品。
- 第二是:在大數據的肩旁上,深度結合業務供應鏈場景設計10倍于以往產品體驗的AI算法產品、AI賦能的智能軟硬件產品。
本文分別先從AI產品需求發現階段、再從AI產品需求設計制造階段對數據挖掘的利用,然后落地到數據挖掘具體的案例解析,最后得出AI產品大數據觀點。
一、數據挖掘用于AI產品需求發現
需求的發現是產品經理和企業產品創新取得成功的關鍵,數據信息在產品的創新設計與制造中發揮越來越重要的作用,充分利用數據挖掘技術從產品市場需求發現、需求設計中提取相應的需求,從而控制和改善下一代產品的設計與制造。
目前,AI賦能的智能軟硬件整體產品的研制周期長,市場反應能力弱,創新度不夠等一系列因素控制了產品制造企業的生存和發展,不論是萬億市值的蘋果還是國內的華為小米一年旗艦智能手機只有一款。這個現象背后正是因為AI賦能的軟硬一體產品,在需求發現到產品設計上有其特殊性。
因此,如何在最短的時間內開發出質量高、價格能被用戶接受的AI產品,已成為產品經理市場競爭的焦點。數據挖掘技術已經成為分析和發現需求,提供決策十分有效的工具,而需求發現速度快起來后可以給需求設計制造更多時間,所以必將有力地支持AI產品的創新設計和制造過程。
數據挖掘(Data Mining,簡稱DM)就是從大量的、不完全的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和需求的過程。
根據產品發現需求的不同,數據挖掘的任務主要分為以下 6 類:
(1)關聯分析需求,揭示隱藏在數據之間相互關系的一項挖掘潛在需求的數據挖掘任務。
例子:“尿布與啤酒”的故事。
在一家超市里,有一個有趣的現象:尿布和啤酒竟然擺在一起出售。但是,這種奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪超市的真實案例,并一直為商家所津津樂道。
沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物需求進行了深層分析,想了解顧客經常一起購買的商品都有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細的原始交易數據,在這些原始交易數據的基礎上,沃爾瑪利用關聯規則對這些數據進行分析和挖掘,得出了一個令人意外的發現:“跟尿布一起被購買最多的商品竟是啤酒!”
經過大量實際調查和分析,揭示了一個隱藏在“尿布與啤酒”背后的美國人的一種需求模式:在美國,一些年輕的父親下班以后要經常到超市去買嬰兒尿布,而他們中有30%~40%的人同時也會為自己買一些啤酒。
產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。
按照常規思維模式,尿布與啤酒風馬牛不相及,若不是借助關聯規則進行挖掘和分析,沃爾瑪是不可能發現數據之間存在的這一有價值的需求。
以前企業的信息管理系統由于缺乏數據挖掘功能,最多只能統計一些數據,從表面上似乎合理,但實際上根本不能反映出本質的情況。例如:通過傳統的信息管理系統,我們得出某一種紅酒在超市的銷售額排名倒數第一位,按照以往的做法,該紅酒肯定會停止銷售,但是通過對所有銷售數據進行關聯分析,我們會發現消費額最高的客戶中有25%常常買這種紅酒,如果停止出售這種紅酒,必然會引起這些高端客戶的不滿。
關聯分析就是發現交易數據庫中不同商品之間的內在的聯系,利用關聯規則找出顧客購買行為模式,如購買了某一商品對其它商品的影響。例如:它能發現數據庫中如“90%的顧客在一次購買活動中購買商品X的同時購買商品Y”之類的問題,發現這樣的規則可以應用于商品貨架設計、庫存安排以及根據購買模式對用戶進行需求分析等。
用于關聯規則發現的主要對象是事務型數據庫,其中針對的應用則是商品銷售數據。如果對這些歷史數據進行分析,則可以對顧客的購買行為提供極有價值的信息。例如:可以幫助商家如何擺放貨架上的商品,如何幫助商家規劃市場等。
總之,從事務數據中發現關聯規則,對于改進商業活動的決策非常重要。
(2)序列發現需求,是指確定數據之間與時間相關的序列模式,利用該模式可對未來的相關行為進行預測。
例子:數據挖掘中序列發現的需求分析應用比如顧客購買行為分析、網絡訪問模式的分析。對一家完善的大型零售企業來說,往往擁有固定會員。會員可以購買較低價格商品,享受更加優惠的售后服務等等。
會員應是經常在某一家店鋪購物的消費者,因此經歷較長時間的會員其購物成為按時間的購物序列,而不同會員就可能存在相同的購物序列。比如:兩個都喜歡購買新科技產品的會員,銷售記錄中就會記錄他們每次購買的科技產品,從而可以將個人的喜好推薦給另一個人,這也形成交叉銷售。
(3)聚類分析需求,是指依賴樣本間關聯的量度標準將其自動分成幾個群組,且使同一群組內的樣本相似,而屬于不同群組的樣本相異的一組方法。
例子:基于數據挖掘的聚類分析,可以借助大數據的優勢,發現數據背后的需求。利用起點學院“成為AI產品經理”在線開放課程學習者的網絡學習過程記錄,采用數據挖掘工具對網絡學習者行為進行聚類分析,研究發現:根據學習特征,網絡學習者可以分為高沉浸性型、較高沉浸性型、中沉浸性型、低沉浸性型四種群體。
學習行為與學習效果密切相關,沉浸性高的學習者學習效果往往較好。筆者作為《成為AI產品經理》課程老師借助技術工具,對學習者進行不斷更新、實時、循環的聚類分析,及時發現學習者的個體及群體學習特征,因材施教,推送適應性的個性化服務,并給予及時的學習預警與恰當的教學干預。
(4)分類,是指找出一個類別的概念描述,它代表了這個類別數據的整體信息,一般用規則或決策樹模式表示。
例子:分類發現需求,首先應該將分類與聚類分開。很多數據產品經理在學習數據方法之初,容易將聚類和分類搞混淆。其實聚類屬于無監督學習范疇(unsupervised learning),也可稱作觀察式學習過程,與分類不同,分類依賴已有既定的先驗知識。
例如:我們成年后,很清楚世界是由男人和女人組成的,所以我們在建廁所的時候,會把廁所分為男廁所和女廁所,這就是“分類”。而當我們剛生下來,我們并不知道什么是男人,什么是女人,通過后天對生活的觀察,我們發現有一類人他們有胡子,而有一類人她們頭發比較長(當然,我的這個舉例已經顯然不符合當今世界的發展了,你們明白就行)。于是我們就把有胡子的人分為一類人,把長頭發的分為另一類人。
然后“研究”發現:原來有胡子的叫男人,有長頭發的叫女人,這個過程就是“聚類”。
(5)偏差檢測,就是從數據分析中發現某些異常情況是否重要,從而獲得有用的需求。
例子:一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現需求進而改進決策的契機。
例如:A君是機車愛好者騎摩托不帶安全帽,他會說他周圍的朋友都不帶安全帽,更刺激更能感受空氣觸感而且周圍朋友都很安全,相反某某著名機車選手帶了安全帽損失性命的例子。
大數據挖掘樣本是基于從大樣本的數據來看,不帶安全帽騎機車比帶安全帽整體不安全。下論斷要從統計整體上來看,揪住一個異常需求沒有意義。數據產品經理知道這一點以后,就可以在諸如非金融財產型產品需求里對某些異常需求可以緩一些解決。
(6)預測,就是利用歷史數據找出變化規律,建立模型,并用此模型來預測未來需求等。
例子:通過數挖得到預測的例子非常多,這里從行業方面舉幾個例子,例如:電力行業通過數挖到不同行業在未來對電力的不同,進而更好的做好對各個行業電力需求的供應。例如:物流行業通過對庫存需求的挖掘調配貨運司機。例如:新零售企業通過數挖準備商家和商品備貨等。
二、數據挖掘用于AI產品設計制造
在產品的設計與制造過程中,利用數據挖掘可得產品設計的創新,提高產品質量,加速產品的制造過程。
數據挖掘在AI產品設計與制造系統中的主要過程如下:
(1)模式發現
在產品的設計和制造系統數據中隱含了重要的模式,比如:購買次數較多的顧客特征,對促銷感興趣的顧客特征以及不購買顧客特征等分析,數據挖掘就是對隱含在數據中模式的深度分析。
(2)趨勢預測
數據挖掘不僅能夠提取靜態的模式,也能預測動態的發展趨勢,目前時間序列挖掘是一個研究的熱點,動態的趨勢能夠反映顧客興趣的改變,從而使企業對發展趨勢做出相應的市場決策。
(3)數據的降維
數據的降維也叫做主成份分析,現代數據庫中包含了交易信息的特征,不相關的數據條目和特征可以從數據集中消除,數據降維的主要作用是選擇關鍵的數據進行分析。
(4)可視化產品制造
數據可視化主要旨在借助于圖表、圖、表格等形化手段,清晰有效地傳達與溝通信息。
根據AI產品全生命周期考慮,產品設計與開發過程可劃分為:產品需求分析(MRD)、概念設計(Featurelist設計)、詳細設計(PRD設計)、工藝設計、樣品試制、生產制造、銷售與售后服務等階段。
每個階段和環節之間都存在著反饋和迭代過程,但其額度對不同設計類型有所不同 , 基于并行工程的AI產品設計與開發過程如下圖 :
因為AI產品是站在傳統產品肩旁上發展而來,尤其是基于移動互聯網的發展累積的大數據的基礎上而實現迅猛發展。故此僅針對上圖中的兩個跟傳統產品不同的點進行講解。
1)AI產品特別是軟硬一體產品,一般是先進行上市及先用樣品上市,看市場情況再進行批量制造。
這是AI產品制造的特點,傳統的商業模式為先制造、后銷售、再消費,企業為消費者提供產品,消費者則是被動的產品接受者。
但在AI賦能的時代背景下則呈現一種新型商業模式,即先個性化定制、再制造、后消費,用戶先提出個性化需求,企業再為用戶提供個性化服務,這樣可以極大地提高用戶的參與度,也能使得企業真正地去理解和思考用戶的需求。
2)AI產品是為了更好地滿足客戶的需要,進而贏得市場,增加企業的競爭力。因此,比如在市場分析中考慮客戶真正需要的產品特征、產品的那些特征最重要等,客戶需求最好能與設計規劃產品進行集成。另外,需求可以很好地幫助設計師采取適當的產品開發策略,開發出滿足客戶需要的AI產品。
AI時代工廠是智能制造的載體和集中體現,用戶可以直接從智能工廠的用戶交互定制平臺定制產品,參與到產品的個性化定制過程中,全球任何地方的用戶都可以根據自己的個性喜好,自由選擇產品的款式,顏色和性能等。提交訂單直接下達到工廠,智能工廠可以實現用戶通過網絡系統對定制生產的全流程實時互聯互通,掌握供應鏈情況,知曉制造進度,追蹤貨物交付。
在AI制造的生產方式下,產品設計流程的主要步驟是:需求、設計、銷售、生產,用戶希望通過定制平臺自行設計或是選擇所需要的產品,不愿接受沒有選擇性的設計方案。
這一過程可以實現的基礎在于三點:
- 一是用戶提出產品的設計需求,交由設計師來完成;
- 二是用戶根據設計師提供的產品設計方案,自行選擇以滿足設計需求;
- 三是對成型的設計產品進行選擇,獲取設計方案。
用戶通過企業的定制平臺參與到產品的設計。生產和交付的全流程,通過對不同的產品模塊進行選擇與組合,構建出符合自己個性的特色產品,極大地簡化了AI產品的設計過程。
(5)產品設計
產品設計是在有限的時空范圍內,在特定的物質條件下,為了滿足一定的需求而進行的一種創造性思維活動的實踐過程,設計具有創造性、復雜性和不確定性,其中包括分析、綜合和評價等過程,設計過程中的每一個行為都對應于這三維空間中的一個點,如下圖所示:
基于數據挖掘的全息AI產品概念設計框架,主要考慮產品數據與環境數據之間的相互作用,發現其中隱含的需求。
數據挖掘運用遺傳算法、決策樹算法在新產品開發中。要在產品設計中進行創新,就要對過去的設計經驗和數據信息進行總結、分解與組合,數據挖掘技術對設計知識的分析,有利于產品設計的創新,使之實現新的需求。
三、大數據挖掘方法案例解析
舉例子:京東數據挖掘系統設計實現的例子。
產品經理或者產品運營人員提出需求,主要目的是獲取給定商鋪的url,通過系統分析,直接將商鋪的商品信息,即評論中對商品評價的關鍵詞直接呈現給消費者,使消費者對商品信息一目了然,從而節約消費者大量時間。
技術人員需要根據上述需求進行如下操作步驟:
- 性能需求評估。
- 然后搭建開發環境,例如:Python3.0+Pycharm5.7+Redis4.0+Window10。
- 數據庫設計:在技術進行數據庫設計的時候,產品經理最好配好技術人員進行表設計。例如:這個案例中的商品抓取表和商品分析結果表,因為商品抓取記錄表中需要明確商品的字段,同理商品分析結果表中的字段和備注等。
- 數據爬取模塊設計,一般采用分布式抓取。
- 數據爬取模塊實現。
- 數據分析模塊實現,以百富帝純棉四件套商品為例,客戶只需輸入該商品的url,即可開始分析,該商品不同顏色購買數量關系、購買渠道占比、購買用戶的等級分布。
至此數據數據挖掘完成,已將該商品的全部有用信息即商品評價、顏色銷量、購買時間、購買渠道和用戶等級分別展示給了用戶。
除了京東的例子外數據挖掘的例子,還有如下:
(1)惡意軟件的智能檢測,在大數據時代下,在惡意軟件檢測中數據挖掘技術得到廣泛的應用
惡意軟件嚴重損害到網絡和計算機,惡意軟件的檢查依賴于簽名數據庫(signature atabase,SD),通過SD,對文件進行比較和檢查,如果字節數相等,則可疑文件將被識別為惡意文件。
有些基于有標簽的惡意軟件檢測的主題,集中在一個模糊的環境下,進而無法進行惡意軟件行為的動態修改,無法識別隱藏的惡意軟件。相反地,基于行為的惡意軟件檢測就可以找到惡意文件的真實行為。而如果采用基于數據挖掘技術的分類方法,就可以根據每個惡意軟件的特征和行為進行檢測,從而檢測到惡意軟件的存在。
(2)信用卡的違約預測
金融產品經理有很多創新性產品是圍繞著信用卡或者類信用卡類產品來做產品的,例如:花唄、京東白條等。
在辦理這類信用卡之前,銀行或者企業首先需要對申請人進行細致調查,根據申請人的實際情況判斷是否有能力來償還所貸金額。AI產品采用灰狼優化算法計算神經網絡的初始權值和閾值,一種改進的模糊神經網絡的AI算法,通過建立的信用卡客戶的違約預測模型,與目前其他的預測方法進行比較,得到較好的預測結果。進一步,驗證了模糊神經網絡在信用卡客戶的預測上具有較好的魯棒性、準確性和高效性。
采用有效的數據挖掘技術,針對信用卡類客戶屬性和消費行為的海量數據進行分析,可以更好的維護優質客戶,消除違約客戶的風險行為,為信用卡等金融業務價值的提升提供了技術上的保障。
(3)AI醫療診斷
乳腺癌的診斷。乳腺腫瘤是女性惡性腫瘤中最常見的腫瘤,影響婦女的身體和精神健康,甚至威脅生命。20世紀以來,全世界范圍內乳腺癌的患病率均有所增加,特別是歐洲和北美地區,分別占歐洲和北美女性惡性腫瘤發病率的第一和第二位。
目前,世界女性乳腺癌在癌癥中的發病率最高,據美國疾病預防中心統計,早期乳腺癌的治愈率可高達97%,進展期的治愈率僅為40%。因此,越早發現乳腺癌,治愈效果越好,即“早發現,早治療”。
在大數據時代下,醫療方面的數據呈現出數量大、類型多、處理方法復雜等特點,數據挖掘技術對這些問題的處理起到了至關重要的作用。威斯康星大學醫院Wolberg提供的乳腺腫瘤分析結果顯示,乳腺腫瘤的特征可以由9 個參數來表示。
針對疾病的智能診斷,數據挖掘具有4個應用角度:在醫院信息系統中的應用、在疾病助診斷中的應用、在藥物開發中的應用、在遺傳學方面的應用。
(4)教育大數據的挖掘,前兩年,南京理工大學的“暖心飯卡工程”受到來自各界的關注。南京理工大學教育發展基金會工作人員對學生在日常生活中的數據進行了調查和數據的采集,該項調查涉及的共有16000余名南京理工大學當前在校學習的本科生,采集的數據為在9月中旬至11月中旬期間學生的飯卡刷卡記錄,將每個月平均在食堂消費60次以上,消費總額不足420元的學生確立為補助對象,不需要學生申報,直接將補助打入學生的飯卡。
這次針對學生生活行為的數據挖掘,不僅在教育大數據的基礎上實現了“精準扶貧”,而且對學生真正做到了“人文關懷”,體現出了數據的價值性。
四、大數據挖掘的數據獲取方法
大公司已經積累了大量的數據,目前是打通數據孤島和挖掘數據,然后分析和應用,而沒有數據的公司適合優先發力研究稀疏數據下的AI認知能力的開發。例如:綠色AI的技術,通過稀疏數據小樣本和算法的精妙設計而實現精準的需求判斷和高效的產品設計制造。
隨著AI賦能制造時代的到來,95后、00后,正在成為消費新主張的群體,他們對個性消費、智能消費、體驗消費越來越重視,消費終端的變化必然會帶來消費趨勢的顯著變化。
為了獲取消費者需求就需要運用數據挖掘。如何在保護消費者隱私要求越來越嚴謹同時,自己公司又缺乏大數據的情況下進行數據獲取呢?
方法如下:
(1)產品外部大數據分析
隨著大數據的急速膨脹,其對于企業越來越重要,現代企業需要具有大數據思維,對外界的相關大數據進行提取、存儲和分析。例如:卡夫食品公司通過大數據分析工具,對上億條社交網站帖子上的相關話題進行內容分析,研究得出顧客的主要關注點在于健康、素食和安全。通過分析研制,最后生產出全新的產品打開了孕婦消費者市場,創造了新的業績。
(2) 企業內部數據挖掘分析
可以對企業內部的客戶,產品數據庫進行整理分析,有效地分析客戶信息,產品信息以及行為數據,進而得到客戶的需求信息。也可以在公司網站或是APP上建立留言區,使得用戶對產品有任何的意見和建議都能發表在上面,進而企業可以獲取有價值的客戶信息。
例如:企業可以利用內部網站數據分析,在活動前期預測本店熱銷產品,從而能確保產品的供應和物流的快速運轉。
(3)企業定制平臺獲?。ňW站+移動終端)
企業可以開發產品定制的交互平臺,用戶在企業的定制平臺上可以瀏覽所需產品的外形信息和功能信息,可以根據個人喜好自由選擇產品的外觀和部件等,通過選定可以看到最終產品的展示效果圖,確定后提交個性化需求信息。企業還可以開設個性定制的智能門店,用戶通過產品導購介紹,根據自己喜好選擇不同零部件組合,和產品導購確定后,提交個性化定制訂單。
這樣可以使企業能快速的響應客戶的個性需求,同時也讓客戶能參與到自己的產品定制設計過程中來。
五、AI產品大數據觀
AI產品經理首先要有數據挖掘需求思維,然后在AI產品設計制造中鞏固對大數據的落地運用,并明白數據挖掘是數據分析最常用的手段,而在數據挖掘的過程中會有新的需求的發現。
人工智能的構建基礎是大數據。在此基礎之上,才是自然語言算法組件、知識圖譜組件與機器學習組件的算法平臺建設。
AI時代的產品經理得先明白技術的原理,然后協同技術共同打造優秀的AI產品。
未來是AI時代,AI是站在大數據的肩膀上的!
如果你想系統化入門AI產品經理,掌握AI產品經理的落地工作方法,戳這里>http://996.pm/7bjab
#專欄作家#
連詩路,公眾號:LineLian。人人都是產品經理專欄作家,《產品進化論:AI+時代產品經理的思維方法》一書作者,前阿里產品專家,希望與創業者多多交流。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
推薦關注一下商業情報理論方面,有一個被稱為奧地利學派的理論,他們主要關注不能量化的信息,而非公式化的信息,認為這類信息才是高利潤的來源,并且指出商業情報工作的重點,應該是不能用數據或統計分析方法解決的問題。我個人其實很欣賞這個理論,如果能夠通過數據的統計分析能夠發現需求的話,那么產品經理的價值和意義怎么去提現,產品經理真正的價值應該是體現在用數據和統計分析方法無法直觀體現和挖掘需求的數據上。舉一個簡單的例子,二戰時期沃德教授關于飛機彈痕的分析,發現返航的飛機損壞最嚴重的就是機翼,建議飛機制造時應該加固機翼,但是真實是這樣的,顯然不是。
這個知識點很重要,多謝前輩提醒!