能否借助AI破譯嬰兒哭聲?
偶然想到一個(gè)場(chǎng)景:借助機(jī)器學(xué)習(xí)精準(zhǔn)識(shí)別寶寶啼哭的原因。仔細(xì)想想,感覺(jué)挺有意思。作者沒(méi)有AIPM的經(jīng)驗(yàn)和算法基礎(chǔ),希望通過(guò)白話描述起到拋磚引玉作用。歡迎大家一起討論,多提建議。
哭鬧是寶寶表達(dá)情感和尋求幫助的主要方式,也是一種健康的表現(xiàn)。就像在告訴父母:“我需要你!”如果父母能夠理解寶寶的需求并及時(shí)解決,會(huì)對(duì)寶寶的成長(zhǎng)發(fā)育很有好處。
現(xiàn)實(shí)中的年輕父母有“輔助破譯哭聲”的需求么?翻了翻各種育兒社區(qū),截了幾張圖,大家可以換位思考,自行體會(huì)下。
一、簡(jiǎn)單調(diào)研
1.1 用戶(hù)調(diào)研
為了迅速獲取更多信息,犧牲精度飆速度,做了一輪4道選擇題的迷你調(diào)研。目標(biāo)人群是曾經(jīng)帶過(guò)0-6個(gè)月寶寶的家長(zhǎng),未要求“正在6個(gè)月中”這一苛刻條件。共采集到176份樣本,情況如下:
a)父母判斷啼哭原因的準(zhǔn)確度
全部正確(22%):這些父母擁有絕對(duì)的自信,幾乎不需要借助工具。通過(guò)訪談,我了解到他們能夠準(zhǔn)確判斷的主要原因有兩點(diǎn),經(jīng)驗(yàn)豐富+寶寶讓人省心。給他們打個(gè)標(biāo)簽叫“胸有成竹型”,后面會(huì)用到。
多數(shù)正確(64.2%):大部分父母處于這種狀態(tài),打動(dòng)他們需要一定的條件,卓越的用戶(hù)體驗(yàn)是前提,同時(shí)要幫助他們提升診斷效率、準(zhǔn)確率。給他們打個(gè)標(biāo)簽叫“經(jīng)常找對(duì)型”。
很難找到(13.5%):有這么多父母面對(duì)寶寶啼哭不知所措,這里存在大量的機(jī)會(huì)可以挖掘。想想吧,中國(guó)人口基數(shù)這么大,13.5%的數(shù)量真的少么?他們的標(biāo)簽叫“困惑型”。
b)常見(jiàn)的啼哭原因有哪些
覆蓋度:調(diào)研中設(shè)定的9種原因已經(jīng)覆蓋了95%的情況,排名最高的6種是饑餓口渴、尿布濕、要抱抱、困了、疾病和疼痛。另有5%的父母選擇了其他原因,包括受到驚嚇、身體被擠壓等,這些原因可以通過(guò)一進(jìn)步的調(diào)研來(lái)補(bǔ)全。
認(rèn)知度:家長(zhǎng)們認(rèn)定的啼哭原因不一定符合真實(shí)情況。舉個(gè)例子,“本能運(yùn)動(dòng)”這個(gè)選項(xiàng)僅有17%的家長(zhǎng)勾選??茖W(xué)研究表明,任何一位寶寶的都曾因?yàn)椤氨灸苓\(yùn)動(dòng)”而啼哭過(guò),這個(gè)過(guò)程有助于寶寶生理和心理的發(fā)育,也是日后語(yǔ)言發(fā)育的一種啟蒙。“本能運(yùn)動(dòng)”與“要媽咪抱”的解決辦法類(lèi)似又不完全相同,一個(gè)是要逗逗,一個(gè)是要抱抱。二者的聲學(xué)特征都富有節(jié)奏感,前者是響亮而后者是平和。這說(shuō)明:幫助家長(zhǎng)提升育兒認(rèn)知,可能也是AI破譯的可挖掘點(diǎn)之一。
c)父母對(duì)“破譯啼哭APP”的感興趣程度
該問(wèn)題的條件是APP免費(fèi),樣本的反饋完全超出預(yù)期:僅有6%的父母表示不會(huì)使用,53%的人愿意嘗試,更有41%的人表示一定會(huì)使用。
對(duì)比幾種類(lèi)型的父母:不僅“困惑型”,就連“胸有成竹型”和“經(jīng)常找對(duì)型”也對(duì)該技術(shù)抱有強(qiáng)烈的興趣。是啊,科技不就是幫人們偷懶么,能省點(diǎn)力為啥要繞彎呢?這里的“免費(fèi)”可能有一定的殺傷力,父母?jìng)兊恼鎸?shí)需求+對(duì)新技術(shù)的好奇心也發(fā)揮著強(qiáng)大作用。
由于調(diào)研維度有限、粒度不細(xì)、樣本數(shù)量較少,沒(méi)能得出更多有價(jià)值的結(jié)論。不過(guò)我們可以看到一定的需求和機(jī)會(huì),借著這股動(dòng)力,繼續(xù)尋找類(lèi)似的競(jìng)品。
1.2 競(jìng)品調(diào)研
a)模擬聲音類(lèi)
通過(guò)模擬胎兒在母體內(nèi)聽(tīng)到的聲音,來(lái)安撫寶寶。這類(lèi)產(chǎn)品的主要作用是安撫情緒,無(wú)法解決例如“生病”、“疼痛”、“尿布濕”等情況,治標(biāo)不治本。
b)嬰語(yǔ)翻譯器
美國(guó)、中國(guó)臺(tái)灣、西班牙、日本都有團(tuán)隊(duì)做過(guò)相關(guān)研究,程序通過(guò)分析哭聲可給出肚子疼、尿布濕、想睡覺(jué)等原因。各團(tuán)隊(duì)都聲明可覆蓋95%以上的寶寶哭啼原因、準(zhǔn)確度比人提高3倍等,但各團(tuán)隊(duì)找到的原因不一致。此類(lèi)產(chǎn)品目前未在大陸市場(chǎng)化,APP沒(méi)找到可用的,獨(dú)立設(shè)備倒是有,感興趣的可以搜一下“貝客來(lái)嬰兒哭聲分析器”。這類(lèi)產(chǎn)品已經(jīng)是AI辯聲的前輩了,其精準(zhǔn)度、易用性、市場(chǎng)化均有提升空間。
c)人工智能類(lèi)
2016年日本First-Ascent公司聲稱(chēng)推出了一項(xiàng)以人工智能為基礎(chǔ)的技術(shù),可根據(jù)嬰兒的哭聲分析原因,并計(jì)劃將該技術(shù)加入到APP中。我本文寫(xiě)到90%才看到這條新聞,繼續(xù)查閱時(shí)發(fā)現(xiàn):它沒(méi)實(shí)驗(yàn)數(shù)據(jù)、沒(méi)可用產(chǎn)品、沒(méi)有本土化。
比較有趣的是,很多競(jìng)品是因?yàn)槌绦蛟嘲职钟X(jué)得帶娃困難,才萌生了技術(shù)解決的想法。下面就從這幾方面做個(gè)淺析:科學(xué)合理性、工具定位、語(yǔ)音識(shí)別、數(shù)據(jù)準(zhǔn)備、學(xué)習(xí)模型。
2、科學(xué)合理性
拋開(kāi)那些競(jìng)品的干擾,推敲一下:【哭聲特征】與【哭的原因】的關(guān)聯(lián)到底可不可靠?如果二者之間具備真實(shí)的相關(guān)性,那是否意味著:無(wú)論映射邏輯多復(fù)雜,我們都有可能用機(jī)器學(xué)習(xí)擬合出預(yù)測(cè)模型?
2.1 經(jīng)驗(yàn)常識(shí)
寶寶樹(shù)這類(lèi)育兒社區(qū)列舉出大量聽(tīng)聲音搞定哭鬧的例子,百度經(jīng)驗(yàn)中更是詳細(xì)列舉了15種哭聲特點(diǎn)、原因以及解決辦法。有經(jīng)驗(yàn)的月嫂通過(guò)哭聲能快速搞定嬰兒,這些都說(shuō)明靠聲音特征判斷很可能OK。
2.2 專(zhuān)業(yè)研究
學(xué)術(shù)界對(duì)嬰兒哭聲含義的研究并不少,最前沿的甚至聲稱(chēng)能診斷嬰兒是否患有自閉癥、腦損傷、神經(jīng)類(lèi)疾病和早產(chǎn)相關(guān)的疾病。我覺(jué)得這個(gè)方向還是有戲的,值得繼續(xù)研究,若感興趣可以搜幾份相關(guān)鏈接:
《美研發(fā)嬰兒哭聲診斷儀可檢測(cè)神經(jīng)類(lèi)疾病》
《哭聲分析儀,早期發(fā)現(xiàn)嬰兒發(fā)育障礙》
2.3 綜合判斷
哭聲不是將原因歸類(lèi)的唯一信號(hào)。我們可以將聲音特征做主要線索優(yōu)先預(yù)測(cè)一波,再用其他方法輔助判斷。不苛求靠AI搞定100%的問(wèn)題,只要能搞定一部分,提升解決效率,就可以發(fā)揮應(yīng)用價(jià)值。
這與智能手環(huán)的綠光測(cè)心率的道理類(lèi)似,光電法的準(zhǔn)確度比不上心電信號(hào)法(醫(yī)療級(jí)別),只靠心率也很難預(yù)測(cè)心腦血管疾病。但手環(huán)的天然優(yōu)勢(shì)就是佩戴方便+實(shí)時(shí)監(jiān)控+主動(dòng)提醒。若使用者結(jié)合經(jīng)驗(yàn)、血壓等指標(biāo)綜合判斷,就有改善生活習(xí)慣、預(yù)測(cè)風(fēng)險(xiǎn)的可能。這類(lèi)產(chǎn)品符合早預(yù)防、早治療的養(yǎng)生理念,經(jīng)常能取得較好的市場(chǎng)反饋。
按照綜合按斷的思路,梳理出如下表格,訓(xùn)練模型就是要預(yù)測(cè)出其中高亮的“哭聲原因”。
根據(jù)查閱的資料,圖中9種哭聲原因的分類(lèi)未必準(zhǔn)確,但至少人類(lèi)可以感知到細(xì)微差異。
上圖描述了一個(gè)模擬場(chǎng)景:家長(zhǎng)先通過(guò)APP鎖定原因范圍,再根據(jù)APP的提示觀察嬰兒,給出判斷。像中耳炎這種特殊情況,父母操作過(guò)一次,基本就記住識(shí)別方法了。這就引出了我對(duì)該工具的定位:通過(guò)正確判斷+有效提示,幫助父母盡快掌握讀懂寶寶的技能,用完即走不粘人。
3、工具定位
3.1 小工具
“破譯哭聲”還沒(méi)到產(chǎn)品設(shè)計(jì)階段,更像是一個(gè)補(bǔ)充工具而非產(chǎn)品。目前各大育兒類(lèi)應(yīng)用已經(jīng)相當(dāng)成熟,提供了豐富的內(nèi)容和服務(wù),但一些服務(wù)的使用頻次很低。若將“破譯哭聲”也集成進(jìn)去,不會(huì)用力過(guò)猛,還可能錦上添花。例如下圖這些就是不錯(cuò)的入口,寶寶哭的頻次遠(yuǎn)遠(yuǎn)比打疫苗、起名字這些高,是吧?
3.2 目標(biāo)人群
經(jīng)驗(yàn)少的父母遇,在0-6個(gè)月遇到寶寶哭鬧很久不停的情況,會(huì)派上用場(chǎng)。6個(gè)月后寶寶就適應(yīng)了周?chē)沫h(huán)境,模型預(yù)測(cè)也逐漸失效,此時(shí)的父母已經(jīng)積累了充足的經(jīng)驗(yàn)。西方提倡父母多與寶寶溝通交流,學(xué)會(huì)讀懂他們的內(nèi)心,這更像是一種玄學(xué)?!白x懂”的能力是父母與孩子的紐帶,會(huì)影響雙方一生的情感溝通。所以不鼓勵(lì)父母依賴(lài)工具,還要幫助爸媽掌握讀懂寶寶的本領(lǐng)。
3.3 擴(kuò)展性
工具雖小,也有點(diǎn)想象空間。例如為寶寶做個(gè)啼哭檔案,記錄每次“哭聲+原因+解決方式”。寶寶長(zhǎng)大看到自己的成長(zhǎng)日志,就會(huì)理解父母把自己拉扯大真心不易。
3.4 產(chǎn)品形態(tài)
訪談幾位表示不愿使用的家長(zhǎng),問(wèn)他們?yōu)槭裁床辉敢庥眠@樣一款A(yù)PP。
一位家長(zhǎng)說(shuō)沒(méi)時(shí)間,想靠自己溝通情感讀懂寶寶;另一位家長(zhǎng)說(shuō)想不到用APP,他家寶寶特別乖,從未久哭不停。這就涉及到用戶(hù)理念、習(xí)慣、個(gè)體差異的問(wèn)題了,三言?xún)烧Z(yǔ)還真說(shuō)不清楚。
這里我只舉一個(gè)例子:小米的小蟻智能攝像頭已經(jīng)能監(jiān)控嬰兒哭聲并提醒父母,如果加個(gè)分析原因、給出建議的功能并不會(huì)突兀,反而很人性化、很精準(zhǔn)??傊a(chǎn)品形態(tài)不局限于APP,只要內(nèi)在邏輯科學(xué)合理,一定會(huì)存在某些交互方案能夠受用戶(hù)歡迎。
4、語(yǔ)音識(shí)別
考慮到成本等因素,將小工具插入到APP中很適合快速打樣、試錯(cuò)。這屬于近場(chǎng)語(yǔ)音識(shí)別,信噪比較高,不過(guò)環(huán)境中還是難免有噪音。識(shí)別的過(guò)程大概分這幾步:
4.1 降噪
對(duì)獲取的聲波信號(hào)做降噪,排除父母對(duì)話、物體碰撞、氣流等噪音。目前市場(chǎng)上已經(jīng)有成功監(jiān)測(cè)嬰兒哭聲的產(chǎn)品,比如小蟻智能攝像機(jī)、三星S5手機(jī)內(nèi)置APP等,識(shí)別的過(guò)程不會(huì)困難。還有些相關(guān)的專(zhuān)利可以借鑒,網(wǎng)上一搜一大把。
4.2 過(guò)濾
對(duì)目標(biāo)嬰兒與其他嬰兒的信號(hào)做區(qū)分,這需要采集目標(biāo)嬰兒的數(shù)據(jù),并單獨(dú)創(chuàng)建學(xué)習(xí)模型。
4.4 特征
從信號(hào)中抽取出聲學(xué)特征讓機(jī)器去學(xué)習(xí),具體就交給神奇的算法團(tuán)隊(duì)吧。
5、數(shù)據(jù)準(zhǔn)備
5.1 實(shí)例設(shè)定
每個(gè)實(shí)例由2部分組成:【啼哭聲】+【結(jié)果標(biāo)識(shí)】,監(jiān)督學(xué)習(xí)的結(jié)果標(biāo)識(shí)是個(gè)封閉集合,訓(xùn)練數(shù)據(jù)類(lèi)似下圖。
5.2 樣本標(biāo)準(zhǔn)
- 聲音信號(hào):錄音聲強(qiáng)>40分貝,時(shí)長(zhǎng)為10-15秒,錄音中僅包含1名嬰兒的哭聲。
- 結(jié)果標(biāo)識(shí):聽(tīng)到哭聲后,父母采取行動(dòng),采集員按照有效的行動(dòng)來(lái)推測(cè)1種哭聲原因,記錄下來(lái)。
- 有效行動(dòng):父母采取行動(dòng)后,寶寶在1分鐘內(nèi)停止哭鬧?;蛘咭颜业娇尢湓?,需要一段時(shí)間解決(例如疾病無(wú)法很快治好,醫(yī)生可以開(kāi)具診斷證明)。
- 寶寶年齡:0-6個(gè)月
5.3 樣本采集
- 采集區(qū)域:寶寶密集區(qū),也就是兒科醫(yī)院、婦幼保健醫(yī)院、月子中心、兒童福利院等。
- 采集人員:盡可能專(zhuān)業(yè),若現(xiàn)場(chǎng)記錄錯(cuò)誤的標(biāo)識(shí),后期修正的難度很大。
- 考慮體驗(yàn):采集過(guò)程人性化,不誘導(dǎo)寶寶啼哭,不影響家屬與寶寶的正常生活。
- 其它參考:臺(tái)灣的某團(tuán)隊(duì)聲稱(chēng)成功采集到10萬(wàn)+類(lèi)似樣本,可以借鑒類(lèi)似的方法或合作。
6、學(xué)習(xí)模型
我們要在目標(biāo)集合中準(zhǔn)確的預(yù)測(cè)出分類(lèi),采用監(jiān)督學(xué)習(xí)。這里不談?dòng)?xùn)練模型和評(píng)估指標(biāo),只提兩個(gè)簡(jiǎn)單的小問(wèn)題:
6.1 模型應(yīng)該輸出“哭啼原因”還是“解決方案”?
按通常的思維是用A方案,但直覺(jué)告訴我B方案也許可行。B的思路是:先預(yù)測(cè)新數(shù)據(jù)的解決方案,再根據(jù)符合期望的行動(dòng)來(lái)反推出哭啼的原因。
現(xiàn)實(shí)中“啼哭原因”與“解決方案”是多對(duì)多的復(fù)合因果關(guān)系,如果直接取哭聲+有效方案來(lái)擬合模型,可能最終效果相同甚至更好。
PS:無(wú)論A還是B,只是模型設(shè)計(jì)的問(wèn)題,最終給到用戶(hù)的體驗(yàn)是一樣的。
6.2 個(gè)性化模型
訓(xùn)練集與實(shí)際數(shù)據(jù)有差異,多個(gè)嬰兒也可能同時(shí)啼哭,所以需要給每位嬰兒創(chuàng)建個(gè)性化模型。家長(zhǎng)們每次修正,都是對(duì)模型的訓(xùn)練,幫助提升預(yù)測(cè)的效果。
以上就是本篇淺析的主要內(nèi)容,拋出一個(gè)場(chǎng)景的可能性。可衍生的類(lèi)似場(chǎng)景也不少,未來(lái)科學(xué)對(duì)聲音的研究不會(huì)止步于嬰兒,寵物、野生動(dòng)物等都有可能取得進(jìn)展。也許有一天我們能通過(guò)AI翻譯機(jī)與較聰明的動(dòng)物交流,比如猩猩、海豚和大象。
寫(xiě)在最后
作者向很多人提過(guò)這個(gè)idea,感謝朋友們的支持和建議。下筆之前還有點(diǎn)猶豫的,因?yàn)樽髡邲](méi)帶過(guò)寶寶,無(wú)法切身體會(huì)那種感受。后來(lái)AI產(chǎn)品大本營(yíng)團(tuán)長(zhǎng)@黃釗 鼓勵(lì)我嘗試寫(xiě)個(gè)短篇,我就決定試一試。
這也促使我反復(fù)思考一個(gè)問(wèn)題:非科班出身、零AI經(jīng)驗(yàn)的PM,怎樣才能有出路?首先要敢想,這是邁出的第一步!
挖需求、挖場(chǎng)景、挖機(jī)會(huì)!模擬場(chǎng)景做調(diào)研,發(fā)現(xiàn)問(wèn)題找方法,而不是跳到工程師賽道上拼算法。等咱們上了船,在實(shí)戰(zhàn)中學(xué)習(xí)理解算法會(huì)達(dá)到事半功倍的效果。
這是個(gè)需要想象力的時(shí)代,或許能借助AI搞定過(guò)去從未解決的難題。在大數(shù)據(jù)沒(méi)出現(xiàn)的年代,誰(shuí)也想不到啤酒與尿布濕之間隱藏著驚人的秘密。
有太多場(chǎng)景需要我們?nèi)グl(fā)現(xiàn),限制我們想象力的不是貧窮,而是勇氣。
世之奇?zhèn)ス骞址浅V^,常在于險(xiǎn)遠(yuǎn)而人之所罕至,非有志者不能至。任何問(wèn)題都一定有辦法解決,我們的任務(wù)就是找到它,無(wú)論這個(gè)概率多么微乎其微!
作者:于長(zhǎng)弘,微信公眾號(hào):AI小宇宙
本文由 @于長(zhǎng)弘 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自u(píng)nsplash,基于CC0協(xié)議
現(xiàn)在識(shí)別哭聲的技術(shù)實(shí)現(xiàn)了嗎?
雖然我對(duì)AI不是很了解,但是要讓AI能夠識(shí)別出來(lái)的一個(gè)前提就是給AI結(jié)果反饋,然后持續(xù)進(jìn)行訓(xùn)練
現(xiàn)有的情況是,人工都沒(méi)辦法識(shí)別出小孩啼哭和需求之間的關(guān)聯(lián)性,自然給的反饋結(jié)果的正確性也是存疑的
AI能做的是通過(guò)輸入和輸出自己去積累結(jié)果,建立規(guī)則
其實(shí)我這篇,在“科學(xué)合理性”一節(jié)探討的就是你說(shuō)的那個(gè)“存疑”,其實(shí)人能夠識(shí)別出一部分,AI能解決的也是一部分。在工程界,一部分就有價(jià)值和意義,重要的是整體方案,而不是讓AI解決100%的問(wèn)題??
不錯(cuò),不知道準(zhǔn)確度如何
需要繼續(xù)研究,國(guó)內(nèi)好像還沒(méi)有這個(gè)方向的研究論文
繼續(xù)研究!加油
謝謝支持