AI產(chǎn)品經(jīng)理的入門必修課——案例篇
導(dǎo)語:前面介紹了「AI產(chǎn)品經(jīng)理需要具備的能力和對數(shù)據(jù)、算法需要理解的程度」、「機(jī)器學(xué)習(xí)的實(shí)際訓(xùn)練過程」;后面將圍繞AI產(chǎn)品在當(dāng)前環(huán)境下的熱門應(yīng)用來進(jìn)行探討,涵蓋了語音識別、圖像識別、NLP自然語言處理、知識圖譜等產(chǎn)品化落地的場景。
一、人工智能與「人工」智能
人每天做的最多的事情就是看、聽、說、思考、決策,這是人這個(gè)復(fù)雜系統(tǒng)需要具備的能力,那么如果要做像人一樣的智能機(jī)器,最基礎(chǔ)要解決的問題便是圖像處理的能力、聲音的處理能力、口語的處理能力、邏輯推理能力,具備了這些能力之后,人才能做更多的事情,同理機(jī)器也就能做更多的事情。
機(jī)器學(xué)習(xí)作為人工智能的實(shí)現(xiàn)手段之一,核心是用算法來解析數(shù)據(jù)、從數(shù)據(jù)中學(xué)習(xí)規(guī)律,再對現(xiàn)實(shí)世界中的事件做出決策和預(yù)測。由于強(qiáng)依賴數(shù)據(jù),對于數(shù)據(jù)的處理和應(yīng)用便顯得極為重要。AI場景中需要面臨大量的非結(jié)構(gòu)化數(shù)據(jù)的處理,涉及了大量的人力工作在里面。在當(dāng)前發(fā)展的階段,我更愿意稱它為「人工」智能。
二、如何構(gòu)建AI產(chǎn)品
構(gòu)建AI產(chǎn)品需要經(jīng)歷的幾個(gè)核心階段,簡單概括為業(yè)務(wù)梳理階段,準(zhǔn)備數(shù)據(jù)階段,設(shè)計(jì)產(chǎn)品研發(fā)方案階段。
1. 業(yè)務(wù)梳理
不同的行業(yè)有不同的行業(yè)背景,在設(shè)計(jì)產(chǎn)品方案之前需要了解自身所處行業(yè)的業(yè)務(wù)邏輯及面臨的需求痛點(diǎn),AI產(chǎn)品本質(zhì)上解決的是效率問題;不管是提高信息生產(chǎn)的效率還是信息傳遞的效率,首先需要找到存在效率問題的場景及識別是否高優(yōu)解決。
- 確定業(yè)務(wù)流程:畫業(yè)務(wù)流程圖,梳理不同角色在業(yè)務(wù)間的順接關(guān)系。
- 業(yè)務(wù)分類:分析不同環(huán)節(jié)間信息如何傳遞,按照不同的需求類型進(jìn)行分類。
- 資源評估:評估現(xiàn)有數(shù)據(jù)資源,是否有足夠多的數(shù)據(jù)支撐產(chǎn)品的開發(fā);若業(yè)務(wù)積累數(shù)據(jù)不夠或質(zhì)量不佳,有沒有其他渠道收集數(shù)據(jù),或數(shù)據(jù)治理的方式。
- 確定優(yōu)先級:哪些問題可以優(yōu)先解決,按照重要緊急系數(shù)進(jìn)行劃分。
2. 準(zhǔn)備數(shù)據(jù)
在構(gòu)建AI產(chǎn)品的工作流中,準(zhǔn)備數(shù)據(jù)是重中之重,極其關(guān)鍵的一個(gè)環(huán)節(jié),數(shù)據(jù)的好壞直接影響了模型是否可用,也是花費(fèi)精力和工作量最多的一個(gè)環(huán)節(jié)。準(zhǔn)備數(shù)據(jù)的過程包含了收集數(shù)據(jù)、治理數(shù)據(jù)、標(biāo)注數(shù)據(jù)。
收集數(shù)據(jù):一般收集數(shù)據(jù)的方式有整理并收集內(nèi)部積累的業(yè)務(wù)數(shù)據(jù)、向數(shù)據(jù)方購買或合作獲取數(shù)據(jù)、通過爬蟲系統(tǒng)獲取網(wǎng)絡(luò)上公開的數(shù)據(jù)、通過終端設(shè)備采集上報(bào)數(shù)據(jù)。
數(shù)據(jù)治理:通常我們從多個(gè)渠道收集上來的數(shù)據(jù)是無法直接利用的,因?yàn)椴煌缹?shù)據(jù)的定義以及生產(chǎn)和使用場景不一樣,想要進(jìn)行使用,需要進(jìn)行一系列的數(shù)據(jù)處理流程;治理數(shù)據(jù)是一個(gè)復(fù)雜的過程,包含了數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)安全等多個(gè)方面的處理技術(shù)及方法。
數(shù)據(jù)標(biāo)注:數(shù)據(jù)標(biāo)注就是將數(shù)據(jù)打上相應(yīng)的標(biāo)簽。AI產(chǎn)品需要處理大量非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)標(biāo)注的意義是將人積累的經(jīng)驗(yàn)判斷的信息標(biāo)注到數(shù)據(jù)上,讓機(jī)器能夠理解和可讀;數(shù)據(jù)標(biāo)注的流程可以分為:確定數(shù)據(jù)標(biāo)注的目的、制定標(biāo)注標(biāo)準(zhǔn)、進(jìn)行數(shù)據(jù)標(biāo)注、標(biāo)注結(jié)果驗(yàn)收。
設(shè)計(jì)產(chǎn)品研發(fā)方案——構(gòu)建并訓(xùn)練模型,機(jī)器學(xué)習(xí)的訓(xùn)練過程在前一篇文章中已經(jīng)分享過了,此處不再介紹。
三、案例分析:圖像識別 – AI識別植物
1. 應(yīng)用場景
- 獲取知識 – 拍照識別植物 ,進(jìn)行植物研究;
- 輔助教學(xué) – 快速識別植物,了解植物基本信息,簡化學(xué)生認(rèn)知;
- 興趣愛好 – 旅行游玩,掃描識圖增加趣味。
2. 明確任務(wù)類型
基于具體的應(yīng)用場景,梳理核心要解決的問題,例如植物識圖,最簡單的場景是要輸入一個(gè)植物圖片進(jìn)去,返回正確的植物名稱,屬于典型的分類問題。
3. 制定分類標(biāo)準(zhǔn)
我們想要準(zhǔn)確識別植物圖片,首先第一步要厘清植物一共分為多少種,每種植物具有怎樣的特征。
下圖是以不同植物的生存方式作為分類邏輯進(jìn)行劃分的,可作為參考;分類方式有很多種,核心需要確認(rèn)并統(tǒng)一制定一套標(biāo)準(zhǔn),方便日后的維護(hù)和擴(kuò)充,也為后續(xù)模型訓(xùn)練打下基礎(chǔ)。
制定標(biāo)準(zhǔn)的過程非??简?yàn)產(chǎn)品經(jīng)理對需求場景的理解以及對特定場景下知識背景的研究,標(biāo)準(zhǔn)的覆蓋范圍直接影響了最終產(chǎn)品所解決問題的范圍。
4. 數(shù)據(jù)采集
根據(jù)分類標(biāo)準(zhǔn)分別為每一個(gè)類目采集樣本圖片,通常會(huì)有專門的采集數(shù)據(jù)的平臺,我們只需創(chuàng)建任務(wù)類型,定義數(shù)據(jù)采集的范圍及需要訪問的網(wǎng)站或鏈接,即可完成自動(dòng)化數(shù)據(jù)的采集。
5. 數(shù)據(jù)標(biāo)注
將采集上來的樣本圖片分別打上對應(yīng)的分類標(biāo)簽。打標(biāo)簽的過程可分為人工打標(biāo)簽、機(jī)器打標(biāo)簽。通常公司內(nèi)部都會(huì)搭建專門打標(biāo)簽的數(shù)據(jù)服務(wù)平臺,例如百度有自己的眾包平臺,專門提供各個(gè)部門關(guān)于數(shù)據(jù)標(biāo)注的服務(wù)。此外市場上也有專門做數(shù)據(jù)標(biāo)注的公司,例如云測數(shù)據(jù)這樣的平臺。
6. 模型訓(xùn)練 – CNN
卷積神經(jīng)網(wǎng)絡(luò)CNN,是目前主流的處理圖像問題的技術(shù)。它包含了圖像內(nèi)容定位、目標(biāo)分割、目標(biāo)關(guān)鍵點(diǎn)檢測、目標(biāo)分類等關(guān)鍵技術(shù),能夠快速提取圖像特征;在介紹CNN之前先了解一下什么是神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)是模擬了生物神經(jīng)細(xì)胞傳遞信息的過程而構(gòu)建的神經(jīng)元模型,主要包含了三部分,數(shù)據(jù)輸入層、隱藏層、輸出層。
- 輸入層:就是將基礎(chǔ)數(shù)據(jù)錄入到模型中。
- 隱藏層:也叫計(jì)算層,包含了多個(gè)參數(shù)的數(shù)學(xué)模型計(jì)算。
- 輸出層:經(jīng)過計(jì)算后輸出結(jié)果。
計(jì)算過程可以簡單理解為:輸入層輸入的每一個(gè)數(shù)值在乘以相應(yīng)的權(quán)重后會(huì)傳遞到下一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)處會(huì)把每一條經(jīng)過計(jì)算的數(shù)據(jù)結(jié)果進(jìn)行累加;累加后的值通過激活函數(shù)激活之后,會(huì)繼續(xù)作為下一層的輸入數(shù)據(jù)參與計(jì)算,以此循環(huán)直到計(jì)算至最后一層輸出數(shù)據(jù)。
每一次訓(xùn)練數(shù)據(jù)的進(jìn)入,都會(huì)將整個(gè)神經(jīng)網(wǎng)絡(luò)上的各個(gè)節(jié)點(diǎn)權(quán)重值更新一次,通過每一層權(quán)重值的不斷調(diào)整來逐漸縮小誤差,確認(rèn)最終模型。
卷積神經(jīng)網(wǎng)絡(luò)CNN與神經(jīng)網(wǎng)絡(luò)邏輯一致,同樣包含輸入層、隱藏層、輸出層,區(qū)別在于隱藏層中又會(huì)拆分出卷積層、線性整流單元層、池化層、全連接層。
卷積層是為了提取圖像特征;線性整流單元層在進(jìn)行計(jì)算時(shí)調(diào)用了特定的ReLU激活函數(shù);池化層是為了將參與計(jì)算的圖像特征數(shù)據(jù)進(jìn)行降維處理;全聯(lián)接層是為了綜合計(jì)算不同分類的得分,為最后的數(shù)據(jù)輸出做準(zhǔn)備(技術(shù)邏輯較為復(fù)雜,感興趣的童鞋可以查閱更多資料進(jìn)行擴(kuò)展了解,通常此部分為算法工程師處理,產(chǎn)品只需簡單理解原理)。
7. 模型評估
AI產(chǎn)品經(jīng)理需要為模型結(jié)果負(fù)責(zé),在評估模型是否可用上需要建立統(tǒng)一的評估標(biāo)準(zhǔn),明確評估流程,并通過數(shù)據(jù)分析來形成結(jié)論。
在植物識圖這個(gè)場景下,一方面需要評估模型能否成功識別出圖片內(nèi)容包含植物,另一方面需要對已識別出的植物進(jìn)行分類準(zhǔn)確性的評估。
1)評估標(biāo)準(zhǔn)
評估標(biāo)準(zhǔn)包含了準(zhǔn)備測試數(shù)據(jù)集,確定評估指標(biāo),定義不同情況下的判斷標(biāo)準(zhǔn)。
2)評估流程
所有識圖相關(guān)的場景下都要經(jīng)過先識別再預(yù)測,因此在評估過程中,需要著重關(guān)注模型是否正確圈選出目標(biāo)物體,若已框選出目標(biāo)物體,再做正確與否判斷。
3)評估數(shù)據(jù)
確定了評估標(biāo)準(zhǔn)及評估流程之后,要對采集的測試數(shù)據(jù)進(jìn)行逐個(gè)評估,此環(huán)節(jié)可以交由數(shù)據(jù)標(biāo)注團(tuán)隊(duì)或者實(shí)習(xí)生來進(jìn)行操作;因?yàn)閭€(gè)別場景下需要測試數(shù)據(jù)量級比較大,為了提高效率需要將任務(wù)量進(jìn)行分?jǐn)偅蟛糠止緯?huì)設(shè)定專門的崗位進(jìn)行數(shù)據(jù)支持。
4)評估結(jié)論
準(zhǔn)確率指標(biāo)是為了評估模型對數(shù)據(jù)的預(yù)測能力;YES判斷正確數(shù)/(YES識別框+NO中應(yīng)為YES的識別框)。
召回率指標(biāo)是為了評估模型對圖像識別的能力;已框選植物主體框/應(yīng)框選植物主體框。
#專欄作家#
大鵬,公眾號:一個(gè)數(shù)據(jù)人的自留地。人人都是產(chǎn)品經(jīng)理專欄作家,《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》作者。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!