從0開始搭建產(chǎn)品經(jīng)理的AI知識框架:計算機視覺

13 評論 12111 瀏覽 120 收藏 15 分鐘

這是AIPM認知系列的第二篇內(nèi)容,如需了解第一篇《從0開始搭建產(chǎn)品的AI認知體系》可以「點擊這里」查看,整篇內(nèi)容3000+字,速讀需要5分鐘

這幾年紅遍網(wǎng)絡(luò)的「FaceU激萌」APP,特斯拉自動駕駛,iPhoneX的FaceID …大家都有所耳聞,而這些都和今天的「計算機視覺」有著密不可分的關(guān)系。

從PM的視角出發(fā),本篇內(nèi)容我會圍繞這4塊內(nèi)容來跟大家交流:

  1. 什么是計算機視覺
  2. 現(xiàn)階段有哪些應用技術(shù)
  3. 落地中會遇到哪些問題和挑戰(zhàn)
  4. 產(chǎn)品方向一些思考

1.什么是計算機視覺?

計算機視覺(Computer Vision),可以理解是「讓計算機怎么去看?」,相當于人類視覺的功能。

「以下案例為了確保更好理解,犧牲一定的嚴謹性」

拿人類來舉例,你正在駕駛一輛汽車,突然前面出現(xiàn)一個人,你會怎么辦?

剎車或打方向盤避開是不是 ?看似這個好簡單的問題,實際是要經(jīng)過一系列復雜的處理

  1. 首先眼前突然出現(xiàn)物體會進入到你的視網(wǎng)膜,經(jīng)過分析之后,把這信息發(fā)給你的大腦。
  2. 你的大腦會處理這些信息,跟你大腦里所有存儲的信息做比較后,進行物體和緯度的歸類。
  3. 通過的信息歸類,給出理解我正在開車,正前方出現(xiàn)這個是人,距離越來越近了,我不能撞到他的判斷。
  4. 然后大腦通過神經(jīng)系統(tǒng)作出反應,控制你的腳踩剎車,或者手控制方向盤避開。

「這一系列的動作只發(fā)生在零點幾秒」

如果這些動作由計算機來完成,就可以初步理解為這個就是計算機視覺在于AI領(lǐng)域的應用。

再舉個例子,看看N年前的FaceU是怎么使用計算機視覺這個技術(shù)的:

  1. 通過手機的攝像頭傳感器,把眼前的物體傳遞給某處理器。
  2. 處理器通過多項技術(shù)來理解眼前物體,識別出圖像中哪個是人臉,哪些是背景。
  3. 人臉進行處理,分辨出人臉上的各個器官,并在關(guān)鍵器官上打上特殊標記
  4. 制作好的素材和這些特殊標記結(jié)合,并且通過手機屏幕展示出來給你。

「注:上圖為原始圖和人臉打標,下圖為根據(jù)標記作出的處理,很有趣是不是」

2.現(xiàn)階段有哪些技術(shù)服務(wù)

目前計算機視覺主要應用的技術(shù)有哪些:

  • 基于人臉識別:人臉檢測,人臉對比,人臉查找…
  • 基于文字識別:通用文字,網(wǎng)絡(luò)圖片,卡證文字…
  • 基于圖像識別:圖片審核,圖像識別,圖像搜索…

2.1?人臉識別

剛才FaceU激萌例子,想必大家對人臉識別有了一點概念,接下來我們看一看有人臉識別的應用技術(shù)。

人臉檢測:想要做人臉識別,首先得讓計算機知道哪些是人臉,所以人臉的檢測是對后續(xù)人臉分析和處理的基礎(chǔ)。通過對圖片掃描和判斷,在圖片用藍色的矩形標示出來。

人臉配準:定位并返回人臉五官與輪廓的關(guān)鍵點坐標位置,關(guān)鍵點包括人臉輪廓、眼睛、眉毛、嘴唇以及鼻子輪廓,最多會返回106個點。

人臉屬性:對圖像的一系列基礎(chǔ)處理之后,通過一系列的算法,來識別人臉的屬性,例如:

這部分是我覺得最有意思的一部分,可以給我們設(shè)計產(chǎn)品和服務(wù)很多想象空間。

目前針對人臉屬性的識別可以提供以下這些參數(shù)供大家使用:

雖然目前提供有意思的參數(shù)很多,但很多的屬性識別的準確性還有待提高。

但這并不影響一部分商用價值或產(chǎn)品化,重點是我要為誰解決什么問題,容錯程度是多少。

后續(xù)我們來再來仔細聊一聊這個話題。

人臉特征提取, 人臉驗證,人臉檢索,人臉活體檢測

因為這些是一個系列的解決方案,所以這一部分我放在一起來說明。

現(xiàn)在AI市場上最熱的幾個領(lǐng)域:智慧安防,智慧金融,智慧商業(yè),都是運用這一系列的解決方案。

最基礎(chǔ)的是人臉特征提取,將人臉轉(zhuǎn)化為一段固定長度的數(shù)值。

人臉的驗證就是把兩個人臉的數(shù)值,做比較,然后計算出一個相似度。

人臉檢索就是根據(jù)人臉特征的數(shù)值,在大量的數(shù)據(jù)庫里檢索,找出最相似的人。

活體識別是一個提高安全性的機制,用于遠程識別攝像頭的對象是真人,而不是一張照片。

2.2?文字識別

文字識別的就很好理解了,識別圖中的文字信息,并且返回文字所在的位置,語言,內(nèi)容,目前正常場景的識別率可以達到90%。

應對不同的場景,又延伸出了很多服務(wù),比如:

  • 證件識別:身份證,駕駛證,護照等等,格式化之后可以直接利用其中的信息。
  • 網(wǎng)絡(luò)圖片文字識別:針對那些藝術(shù)字,特殊設(shè)計的文字。
  • 其他:表格文字識別,票據(jù)文字識別,可以根據(jù)圖片內(nèi)的格式輸出。

2.3?圖像識別

圖像識別這個范圍很大了,需要看具體有價值應用場景,通常識別物體:家居物品,動物,植物,品牌Logo,菜品…等等。

識別的邏輯跟人臉識別類似,但是需要龐大的訓練數(shù)據(jù),來教計算機認識這些物體,學習的越多,識別率會越高,但目前可以提供服務(wù)就是一些好理解的,特征明顯的:貓,狗,電視,沙發(fā),玫瑰,汽車,火車…等等。

但如果需要一些特殊場景下的識別,比如車輛的定損,奢侈品包包的真假判斷,需要再一個垂直領(lǐng)域進行深度學習和特殊數(shù)據(jù)的大量訓練了。

3.?落地中會遇到哪些問題和挑戰(zhàn)

前面介紹了很多計算視覺在于應用上的技術(shù)實現(xiàn),但想闡述一些核心觀點:

  • 對于PM來講,人工智能也只是工具,最終要的還是是理解行業(yè),理解用戶,理解痛點。
  • 對于技術(shù)本身,我們更多是理解技術(shù)邊界,在自己應用場景之下,知道什么可行,什么不可行。
  • 另外就是項目中的實戰(zhàn)經(jīng)驗,確保產(chǎn)品可以落地,并且真的可以產(chǎn)生價值的策略。

3.1?應用場景不同,技術(shù)成熟度也不同

對于不同的應用場景來說,所需技術(shù)成熟是不同的,舉個例子:

  • 像FaceU激萌,分析視頻物體推薦購買,當前的技術(shù)就比較“成熟”。
  • 而自動駕駛,智慧醫(yī)療,當前的技術(shù)就“不夠成熟”

其一因為標準不一樣,人工智能本身是一個概率學的事情:

  • 就算FaceU人臉的坐標有偏差,拍攝環(huán)境惡劣,用戶也可以接受并配合調(diào)整。
  • 就算視頻里的物體識別不夠精準,推薦錯了品牌,廣告投放商和服務(wù)商也可以接受,因為已經(jīng)有較大幅度提升。
  • 但是如果自動駕駛在某種沒有被訓練的惡劣環(huán)境下,出了嚴重的交通事故,是不能接受的。
  • 醫(yī)療也一樣,計算機推薦通過影像識別腫瘤在這個位置,從這里下刀后發(fā)現(xiàn)計算機判斷的并不正確,也是不能被接受的。

3.2?準確率提升依賴大量的數(shù)據(jù),但光數(shù)據(jù)量大是不夠的

產(chǎn)品要開始落地之前,首先考慮圖像一類相關(guān)數(shù)據(jù)是否是打通的,是否可供機器訓練,因為機器學習的數(shù)據(jù)越多準確率越高。

但是只是提供訓練數(shù)據(jù)就可以了嗎?實際的情況并不是的,因為:訓練的數(shù)據(jù)未必真實符合情況的數(shù)據(jù)

舉個例子你就明白了:

而且準確率并不是產(chǎn)品落地的唯一評價指標,還有誤報率,實時監(jiān)控尋找某個罪犯。

結(jié)果在同一個時間,多個地點都發(fā)現(xiàn)了這個“罪犯”,這顯然是不夠“成熟”的。

3.3?實際場景還會有諸多問題

等產(chǎn)品進入到實際場景中測試時候,就會發(fā)現(xiàn)還有很多無法預料的事情。

  • 真實場景硬件的性能是否可以達到訓練時候的效果?攝像頭清晰度?硬件計算能力?網(wǎng)絡(luò)信號和速度?
  • 識別算法是否可以應用到所有場景?信噪比?對比度?是否遮擋?運動狀態(tài)的會模糊?不同天氣的光線差異?角度不同產(chǎn)生影響?
  • 還有就是非常現(xiàn)實的成本問題,也就是看ROI,想用機器人通過圖像識別來替代人,那要看投入產(chǎn)出比,還得是否可以規(guī)?;?。

綜上所述,這里就需要PM 的能力,比如MVP,A/B test模型,數(shù)據(jù)分析,以及對于自己的行業(yè)以及用戶深刻理解,洞察行業(yè)的本質(zhì)。

4.?產(chǎn)品落地方向的一些思路

PM+ AI +X的落地方向上的話,借助這幾個點來思考:

  • 哪些可以大幅提升效率,減少人工成本,且可以規(guī)?;?/li>
  • 哪些是剛需,但是用戶體驗很差,尤其是時效性有很大要求的。
  • 哪些是以前做不到的事情,但是AI可以做到的,比如:自動駕駛。

目前計算機視覺的應用和方向:

但具體要做什么產(chǎn)品,就沒必要在這了YY了,是否可落地是需要每個PM對于行業(yè)的深刻洞察,歡迎你隨時帶著行業(yè)的痛點和經(jīng)驗來一起討論AI具體落地方法。

目前計算機視覺在技術(shù)上僅是在部分領(lǐng)域識別具有產(chǎn)品落地和商用的價值,但是對于圖像的理解和描述還處于研究階段,是一個需要突破的瓶頸,讓AI可以更深的正確的理解圖像內(nèi)容后,才能產(chǎn)生正確有效的行為,才真的“智能”,這也是我目前最感興趣的,也是最有價值的地方。

以上就是我的「產(chǎn)品經(jīng)理的人工智能認知體系」系列的第二篇學習筆記,歡迎留言交流。

 

作者:蘭楓「微信公號:藍風GO @LanFengTalk」,前騰訊游戲,新浪微博PM,Elex產(chǎn)品總監(jiān),8年的游戲,社交,O2O等產(chǎn)品相關(guān)經(jīng)驗,連續(xù)創(chuàng)業(yè)者。

本文由 @蘭楓 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自PEXELS,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 謝謝這么慷慨地把自己學習和研究的成果,整理成邏輯清楚表述明白的文章分享出來??焖僮x完您的幾篇文章,讓我這個初入門的AI小白有了大概了解,不至于太不知所措。

    來自北京 回復
  2. 之前您推薦的幾本書,人工智能:一種現(xiàn)代的方法,好深奧難懂啊,有沒有適合沒有基礎(chǔ)的人學習和了解人工智能的?

    來自北京 回復
  3. 計算機視覺和語音識別出了技術(shù)上現(xiàn)有的瓶頸和成本的限制外,主要是不知道用戶在什么場景下最需要什么功能。感覺現(xiàn)在使我們根據(jù)技術(shù)去創(chuàng)造用戶的需求,而不是有了強剛需后,用更先進的技術(shù)去解決問題。老師的三篇文章真贊,希望持續(xù)更新~

    來自北京 回復
    1. 說的非常對,我曾經(jīng)思考過,對于「技術(shù) vs 需求」,到底是先有雞還是先有蛋的問題,最后我的思考一定是現(xiàn)有的需求(或者概念),才有的技術(shù)突破,然后這個一定是螺旋式的上升的。另外對于我們PM來講,重要的是如何利用AI技術(shù)在自己的行業(yè)里確確實實的創(chuàng)造價值,讓技術(shù)轉(zhuǎn)變而產(chǎn)品落地。在PM領(lǐng)域里,我認為重要的不是拿AI當初PM職業(yè)分之,而是每個PM都要了解AI的思想和技術(shù)紅線,讓AI成為一種解決問題的思維和手段。

      來自北京 回復
    2. 老師,最近看東西發(fā)現(xiàn)有人這樣說:現(xiàn)在AI產(chǎn)品經(jīng)理的不合格不在于他不會運用技術(shù),而是他不會從AI的思維去理解如何運用技術(shù)。他說AI的產(chǎn)品經(jīng)理更需要的是哲學上的認知和道德上的至上,而不是現(xiàn)在單純的設(shè)計產(chǎn)品的流程和思路。老師怎么看,對于AI產(chǎn)品的設(shè)計和運用需遵循哪些原則?
      另外最近看了一部電影叫《弗蘭克和他的機器人》里面的機器人在設(shè)計時沒有考慮道德和哲學層面的問題,設(shè)置的程序就是為改善服務(wù)主人的身體健康而可執(zhí)行任何行動和人物,最后幫助主人行竊。如果以后的AI產(chǎn)品也全部垂直了,專門的照顧病人健康的機器人,專門看孩子的機器人,如何進行機器人的規(guī)則統(tǒng)一和防止道德上的缺陷?
      老師,思路有些亂,還希望您有時間能幫我解答一下~

      來自北京 回復
    3. 先聊AI思維,我是這么理解的,產(chǎn)品經(jīng)理最重要是發(fā)揮技術(shù)的價值,讓產(chǎn)品落地產(chǎn)生商業(yè)化的價值。所以要從確切實際能落地解決問題的角度來思考,所以AI的技術(shù)會運用當然好,不會運用找到會AI技術(shù)的搭檔也行,所以AI的思維本身比懂技術(shù)更重要,而了解技術(shù)的邊界目的是能清晰的判斷產(chǎn)品的可行性,而不是只談“概念”,一個錯誤的判斷很可能會對產(chǎn)品和項目有致命的打擊,這也就是MVP為什么這么重要的原因。

      對于AI產(chǎn)品的設(shè)計和運用需遵循哪些原則?這個我無法給出很好的答案,因為AI是技術(shù),相當于蒸汽機,電力,計算機這類的基礎(chǔ)設(shè)施,你需要理解了機器學習,大數(shù)據(jù),自然語言理解,計算機視覺,語音等相關(guān)技術(shù)初步認知之后,再結(jié)合自己產(chǎn)品來思考這個問題。

      擁有自我意識的機器人距離我們還很遠,產(chǎn)品經(jīng)理確實要看到未來可行性,但是我個人認為,現(xiàn)在的AI技術(shù)還只是根據(jù)人設(shè)定的來進行工作,比如阿爾法狗。 而且近些年現(xiàn)在AI只是在「認知」上作出了突破進展,而「理解」還是瓶頸,畢竟深度神經(jīng)網(wǎng)絡(luò)只是對于人腦的粗糙理解運用,所以“談道德”這個還為之過早。

      最后要清晰明白自己學習AI的目的是什么,AI領(lǐng)域太大了,概念也太多了,沒有一個主線,很容易走偏。

      因為偶爾才上人人都是產(chǎn)品經(jīng)理,如果還有疑問歡迎加我的微信公號:藍風GO (@LanFengTalk) 留言繼續(xù)交流

      來自北京 回復
    4. 好的,老師我加一下您的微信公眾號,就像您說的AI的領(lǐng)域太大了,我現(xiàn)在不是學偏了,是都不知道如何下手,如何學~

      來自北京 回復
  4. 藍風老師您好,我是電子工業(yè)出版社編輯,我對AI時代產(chǎn)品經(jīng)理的認知與技能方面的內(nèi)容非常感興趣,不知是否方便加您微信,以便和您請教?我的微信/手機是13391987752

    來自北京 回復
  5. 很通俗易懂的系列文章 會一直跟進的

    來自廣東 回復
  6. 建議親后面涉及到比較專業(yè)的時候還是用專業(yè)術(shù)語,然后再以加上自己的解釋。不然的話有時候全用自己的話概括會有偏頗,會容易引起小白對這個概念的理解。

    來自廣東 回復
    1. 非常感謝建議,這個確實需要注意??煞裰更c一下,哪幾個地方會容易有偏頗 ?

      來自北京 回復
  7. 我的從0開始是自己自學跑了一個keras tensorflow的實例

    來自河北 回復
    1. 一開始我也躍躍欲試用Python寫幾個案例,這樣確實有助于理解機器學習。但是對于N年沒有寫過代碼的我來說太慢了,深入機器學習還是從算法上切入快一點,需要時候再用一下,這樣就不用花時間先去了解tensorflow。這樣對我自己來講,可以快一些用AI思維幫現(xiàn)有業(yè)務(wù)去落地一些產(chǎn)品。

      來自北京 回復