如何設(shè)計(jì)一款有溫度的AI產(chǎn)品?(三)

0 評論 798 瀏覽 3 收藏 6 分鐘

在前面,作者介紹了自己在設(shè)計(jì)一款“有溫度”的AI產(chǎn)品的歷程和感悟,這里,作者接著做出闡述,并對實(shí)時(shí)Agent發(fā)表了自己的一些看法,一起來看看吧。

接上文:

兩個(gè)小家伙天天活力無限,抱歉拖更有點(diǎn)嚴(yán)重,祝大家新年新活力,歲歲福滿堂。

一、和大家匯報(bào)下親音AI這款產(chǎn)品的進(jìn)展

做這個(gè)產(chǎn)品的初衷,通過AI科技的途徑,見到已逝的心心念念之人,彌補(bǔ)心里的遺憾,也讓AI變成有溫度的科技,而不是冷冰冰商業(yè)變現(xiàn)或是人力的替代,目前初版產(chǎn)品已經(jīng)研發(fā)完成了,將實(shí)時(shí)的Taking Head轉(zhuǎn)換成文字方式,1.5版本會(huì)將實(shí)時(shí)視頻放出來(WIFI環(huán)境下實(shí)時(shí)延遲5秒以內(nèi))。

發(fā)展方面,也有幾個(gè)投資人想要對這個(gè)產(chǎn)品進(jìn)行投資,我還是想保持下初心,讓我的兩個(gè)孩子看看他們沒有見過的爺爺,投資的事項(xiàng)我可能要放后面一點(diǎn),在另外一個(gè)實(shí)時(shí)Agent + RPA的項(xiàng)目上商業(yè)化,這個(gè)產(chǎn)品還是單純的自私一點(diǎn)。

二、1.4版本的產(chǎn)品設(shè)計(jì)相關(guān)

想來想去,還是V信是最習(xí)慣的溝通交互,所以你懂的像素級Copy(這被設(shè)計(jì)師朋友作為了一生的恥辱,已經(jīng)和我斷交了,設(shè)計(jì)了九個(gè)版本從0.5到1.4,最后改回了最初的交互,他說以后連眼神都不會(huì)和我進(jìn)行交流…)。

三、幾個(gè)版本的設(shè)計(jì)理念

1.4的版本設(shè)計(jì)中,智能體Agent可以主動(dòng)的和人進(jìn)行交流,圖片,語音,文字,視頻都會(huì)主動(dòng)的進(jìn)行發(fā)送,當(dāng)然這些還是基于規(guī)則層面的,還沒有達(dá)到一個(gè)智能體Agent該有的高度(能感知環(huán)境,感知交流人的情緒,安撫并善于溝通,獨(dú)立推理思考這些),近期也會(huì)發(fā)布到應(yīng)用市場。

1.5版本中,會(huì)加入基于RAD-NERF的實(shí)時(shí)視頻相關(guān)的能力,這個(gè)改動(dòng)會(huì)相對大一些,1.5版本才是我最最想要的東西,所有的思考都是源于可視化的實(shí)時(shí)交流。

1.6版本中,會(huì)將采用AI Agent框架重寫下,當(dāng)前智能體的交流方式,從被動(dòng)Prompt,到主動(dòng)使用攝像頭感知交流者的情緒、當(dāng)前環(huán)境,為智能體創(chuàng)造一個(gè)可以生存的虛擬靈域,這個(gè)并不是天方夜譚,一個(gè)微模型的環(huán)境中,有人類所需要各種設(shè)施,智能體可以生活中這個(gè)小鎮(zhèn)中,彼此可以交流并保持長期記憶,每一次的溝通智能體都會(huì)更像自己的心心念念之人。

四、實(shí)時(shí)Agent的一些思考和技術(shù)實(shí)現(xiàn)

目前采用的是基于RAD-NERF的低緯特征進(jìn)行音頻面部驅(qū)動(dòng)的,說實(shí)話論文的中的理論部分沒看懂,好多公式還得先Google下才能稍稍理解。

通俗來講就是根據(jù)一段視頻,先分離音頻,將視頻分為一幀一幀的圖像,然后通過3DMM等模型分割人像,加入背景圖片進(jìn)行頭部、唇部、身體部分訓(xùn)練得到訓(xùn)練好的人物模型,最后通過文字轉(zhuǎn)語音驅(qū)動(dòng)當(dāng)前的任務(wù)進(jìn)行Talking head,實(shí)時(shí)將每一幀推送給需要的播放端,所以對產(chǎn)品的挑戰(zhàn)就是,需要有人物的聲音,視頻,作為訓(xùn)練素材,背景不能有雜音,視頻動(dòng)作需要有規(guī)范。

一些改進(jìn)的思考,首先speech to text耗時(shí)有一些,目前一些模型也支持,語音生成語音openai 或是達(dá)摩院的一些產(chǎn)品,可以省去音頻轉(zhuǎn)換部分的IO消耗及網(wǎng)絡(luò)相關(guān)的耗時(shí),推流部分應(yīng)該前后有銜接動(dòng)作或是語音的暫停1-2秒,更好的銜接,還有就是虛機(jī)配顯卡的環(huán)境適合測試,真正使用還是需要物理機(jī),推理性能提高10%以上,還是有很大幫助的,這部分我會(huì)單獨(dú)發(fā)布下包括后面的源碼。

最后,還是保持初心,科技是生活的一部分,不是全部,身邊的人是最需要關(guān)注的。

未完待續(xù)。

本文由 @AI李伯男 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!