與算法攻城獅一起工作時(shí),產(chǎn)品狗需要做什么?
在過去的一年中,有幸參與了一個(gè)全新算法的從立項(xiàng)到最后上線,感觸頗深。所以今天來(lái)聊聊整個(gè)過程中產(chǎn)品經(jīng)理都要做些什么工作。
一、概念普及
算法:標(biāo)準(zhǔn)概念
算法(Algorithm)是指解題方案的準(zhǔn)確而完整的描述,是一系列解決問題的清晰指令,算法代表著用系統(tǒng)的方法描述解決問題的策略機(jī)制。也就是說(shuō),能夠?qū)σ欢ㄒ?guī)范的輸入,在有限時(shí)間內(nèi)獲得所要求的輸出。如果一個(gè)算法有缺陷,或不適合于某個(gè)問題,執(zhí)行這個(gè)算法將不會(huì)解決這個(gè)問題。
算法中的指令描述的是一個(gè)計(jì)算,當(dāng)其運(yùn)行時(shí)能從一個(gè)初始狀態(tài)和(可能為空的)初始輸入開始,經(jīng)過一系列有限而清晰定義的狀態(tài),最終產(chǎn)生輸出并停止于一個(gè)終態(tài)。一個(gè)狀態(tài)到另一個(gè)狀態(tài)的轉(zhuǎn)移不一定是確定的。隨機(jī)化算法在內(nèi)的一些算法,包含了一些隨機(jī)輸入。
來(lái)自:百度百科
看不懂有木有,那么通俗版本解說(shuō)一下:
算法就是一個(gè)問題的解決方法,可以理解成高中時(shí)候做的應(yīng)用題,題目會(huì)給你一些已知條件(輸入),讓你根據(jù)這些已知條件,求出最后的解(輸出)
二、算法問題提出的準(zhǔn)備
根據(jù)上面算法的定義,當(dāng)我們決定新開發(fā)一個(gè)算法的時(shí)候,這個(gè)題目(需求)肯定是來(lái)自產(chǎn)品。作為出題者,我需要給研發(fā)出一道題目,利用產(chǎn)品已有的一些數(shù)據(jù),產(chǎn)出一個(gè)希望得到的需求。
為了讓這個(gè)偏技術(shù)的文章沒那么枯燥,我們還是用舉例的方式(怎么辦,我超愛舉例的,這可能已經(jīng)成為我的文風(fēng)了)來(lái)描述準(zhǔn)備提出新的算法問題的流程。感謝提問的來(lái)自某二次元社群的產(chǎn)品黃同學(xué)。
按照黃同學(xué)給我的描述,他想做一個(gè)這樣類型的推薦算法:
1.在APP端的某個(gè)tab頁(yè)上,做一個(gè)短視頻的瀑布流。
2.這個(gè)瀑布流里的內(nèi)容主要是平臺(tái)推薦給用戶的一些用戶可能會(huì)喜歡的視頻類型,
3.做這個(gè)需求的目的:增強(qiáng)用戶黏性、吸引新用戶留存的目的。用戶每次刷新顯示的結(jié)果要有區(qū)別和不同。
那么我們首先要做的就是拆解問題,把問題從一個(gè)口語(yǔ)化的語(yǔ)言轉(zhuǎn)換成略微程序化的語(yǔ)言。(這里就簡(jiǎn)單寫一下,具體的這種準(zhǔn)備還是要準(zhǔn)備更加詳細(xì)的PRD為好,里面的數(shù)值都是我瞎寫的,具體指標(biāo)還是要黃同學(xué)自己來(lái)確定。)
- 輸入:每個(gè)用戶都有的個(gè)性化標(biāo)簽(包括喜歡的二次元內(nèi)容的種類、常用的論壇分區(qū)等),論壇已有的熱門視頻隊(duì)列,論壇所有的短視頻隊(duì)列,
- 限制條件:①在每次給用戶出現(xiàn)的新的推薦視頻隊(duì)列中,需要按照一定比例n,來(lái)展示熱門內(nèi)容和猜測(cè)用戶喜歡的內(nèi)容。②多次刷新時(shí)推薦視頻隊(duì)列中有一定比例m出現(xiàn)新內(nèi)容。③用戶喜歡的內(nèi)容,根據(jù)用戶個(gè)性化標(biāo)簽的特征向量的方式來(lái)設(shè)置用戶不同標(biāo)簽的視頻顯示在C端的權(quán)重比例。④熱門指數(shù)需要通過一定指標(biāo)來(lái)確定來(lái)源。
- 輸出:一個(gè)符合用戶愛好的推薦視頻隊(duì)列。
- 指標(biāo)檢測(cè)標(biāo)準(zhǔn):用戶在tab頁(yè)上面的平均留存時(shí)間超過30s的比例超過50%,單個(gè)推薦視頻的停留時(shí)間超過5s的比例占所有觀看視頻數(shù)量的60%以上,每次出現(xiàn)隊(duì)列中用戶觀看的數(shù)量占本次推薦視頻的80%以上。
這樣看起來(lái),就是一個(gè)合格的能夠快速讓研發(fā)get到精髓的問題。問題提出之后,算法攻城獅們就會(huì)進(jìn)入到緊張的解題過程中。這個(gè)階段你需要做的,就是稍微了解一下他們的解題思路是否和你想象中的有偏差,確認(rèn)最終的所要達(dá)到的效果是否能夠滿足你的需求。
最后黃同學(xué)給出的他們團(tuán)隊(duì)確定的方案(確認(rèn)的無(wú)比順利、老板也沒意見、黃同學(xué)很開心的樣子)如下,希望對(duì)在看這篇文章的各位有所幫助:
三、算法研發(fā)過程中你需要幫助研發(fā)準(zhǔn)備的
人工智能算法的基礎(chǔ)就是數(shù)據(jù)。不管是推薦算法、語(yǔ)音識(shí)別、自然語(yǔ)言分析、模式識(shí)別、機(jī)器學(xué)習(xí)等等這些看起來(lái)高大上的算法都離不開一個(gè)東西:數(shù)據(jù)。
在介紹你需要給研發(fā)準(zhǔn)備的東西之前,這里還要介紹算法的3個(gè)概念:測(cè)試集、驗(yàn)證集、訓(xùn)練集。
在機(jī)器學(xué)習(xí)和模式識(shí)別等領(lǐng)域中,一般需要將樣本分成獨(dú)立的三部分訓(xùn)練集(train set),驗(yàn)證集(validation set ) 和測(cè)試集(test set)。其中訓(xùn)練集用來(lái)估計(jì)模型,驗(yàn)證集用來(lái)確定網(wǎng)絡(luò)結(jié)構(gòu)或者控制模型復(fù)雜程度的參數(shù),而測(cè)試集則檢驗(yàn)最終選擇最優(yōu)的模型的性能如何。
來(lái)自:百度百科
OK,再用個(gè)通俗化的語(yǔ)言來(lái)簡(jiǎn)單解釋一下這三個(gè)名詞:
- 訓(xùn)練集:我拿N個(gè)用戶作為樣本案例,先來(lái)驗(yàn)證一下我這個(gè)算法跑不跑的通,能不能推薦出來(lái)對(duì)應(yīng)的結(jié)果
- 驗(yàn)證集:我拿一些和之前不同的用戶,他有更多更復(fù)雜的用戶標(biāo)簽,我來(lái)試試在復(fù)雜情況下的我出來(lái)的結(jié)果是不是符合預(yù)期。
當(dāng)這兩個(gè)都算完了,攻城獅也都調(diào)教好了推薦算法中的不同標(biāo)簽和內(nèi)容的比例了之后。就要用到測(cè)試集這個(gè)東西了。
- 測(cè)試集:我取一些從來(lái)沒跑過推薦算法的用戶作為樣本,跑一遍算法,這些用戶用某種方式抽取沒有特定的規(guī)律,然后看輸出的推薦集合是不是滿足自己的要求。
盡管,研發(fā)可能根本用不到你去專門制造一些數(shù)據(jù),(畢竟人家搞算法的,還有專業(yè)的測(cè)試去做整個(gè)算法的訓(xùn)練集和驗(yàn)證集的構(gòu)成),但是如果你能參與到其中的一小部分,可能會(huì)對(duì)結(jié)果有一定的幫助。
例如,準(zhǔn)備一些你覺得有這樣的輸入應(yīng)當(dāng)給出什么樣的輸出結(jié)果,比如我更喜歡日劇和美劇,我就希望推薦里更多的就是日劇和美劇,再加一點(diǎn)點(diǎn)動(dòng)漫。
例如,具體推薦內(nèi)容的比例(你期望的輸出)可能會(huì)影響到用戶留存(你希望通過算法解決的問題)的權(quán)重,還是要產(chǎn)品經(jīng)理去確認(rèn)。當(dāng)然最后的算法的優(yōu)化,還是要利用長(zhǎng)時(shí)間的收集用戶數(shù)據(jù)來(lái)完成。
四、驗(yàn)證效果
很多時(shí)候,一個(gè)算法的1.0版本總是差強(qiáng)人意的,尤其需要大量的數(shù)據(jù)去訓(xùn)練的這些最近很時(shí)髦很流行的(人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別)算法。(這些算法有機(jī)會(huì)可能會(huì)單開一個(gè)文章去講講非技術(shù)出身產(chǎn)品經(jīng)理如何理解這些看起來(lái)高端洋氣上檔次的算法,其實(shí)并沒有想象中的那么復(fù)雜或者高端。)
當(dāng)新算法上線之后,你需要一段時(shí)間去收集用戶反饋的新數(shù)據(jù)。按照上面的這個(gè)例子,應(yīng)當(dāng)就是收集用戶在tab頁(yè)上面的平均留存時(shí)間超過30s的比例,單個(gè)推薦視頻的停留時(shí)間超過5s的視頻數(shù)量占所有觀看視頻數(shù)量的比例, 每次出現(xiàn)隊(duì)列中用戶觀看的數(shù)量占本次推薦視頻的比例等等這一系列數(shù)據(jù),然后根據(jù)數(shù)據(jù)結(jié)果的優(yōu)劣,再讓研發(fā)重新調(diào)整對(duì)應(yīng)的權(quán)重和參數(shù),來(lái)達(dá)到最終的目的(增加留存blablabla)。
以上就是描述一下產(chǎn)品如何推動(dòng)算法研發(fā)的一個(gè)小例子咯。當(dāng)然我自己做的算法不是推薦算法(是排課啦,NP困難問題比推薦難大約一個(gè)量級(jí)),但是和算法工程師工作的流程基本上不會(huì)有改變,希望大家在碰到類似的工作的時(shí)候不要一臉懵逼,不知道如何下手。
作者:CresYan,3歲B端教育行業(yè)產(chǎn)品經(jīng)理,大齡失業(yè)女青年,貓奴,歡迎勾搭~\(≧▽≦)/~
本文由 @CresYan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
您好想問下您智慧城市產(chǎn)品經(jīng)理相關(guān)的內(nèi)容可以嗎?
按發(fā)布時(shí)間占40%是什么意思,這點(diǎn)不是很懂。
智能排課想請(qǐng)教一下?
這個(gè)已經(jīng)不做了~~~
hi ,CresYan,我們這邊是教育行業(yè)的公司,下面有一個(gè)AI部門正在招AI相關(guān)的產(chǎn)品經(jīng)理,如果有興趣可以聯(lián)系我哦。
Hi、、可是現(xiàn)在AI的應(yīng)用在教育上還是很難的一個(gè)事兒吧