內(nèi)容處理和分發(fā)中的算法應(yīng)用探究

0 評(píng)論 8198 瀏覽 58 收藏 19 分鐘

現(xiàn)如今,算法已被應(yīng)用到互聯(lián)網(wǎng)各領(lǐng)域之中,其中以媒體內(nèi)容領(lǐng)域尤為突出。算法不僅能實(shí)現(xiàn)多樣化、個(gè)性化的內(nèi)容精準(zhǔn)推薦,還能賦能內(nèi)容生產(chǎn),輔助內(nèi)容運(yùn)營。

近期,騰訊PCG新聞產(chǎn)品技術(shù)部算法中心李彪應(yīng)邀來到騰訊媒體研究院作內(nèi)部分享,詳細(xì)梳理了算法應(yīng)用產(chǎn)品場景,以下為部分內(nèi)容實(shí)錄。

今天我跟大家分享的主題是算法賦能的內(nèi)容處理和分發(fā),重點(diǎn)講一下內(nèi)容處理。開始之前,先介紹一下算法在騰訊新聞的應(yīng)用場景。

第一個(gè),騰訊新聞APP中各種內(nèi)容形態(tài)(如圖文、視頻、音頻、話題、問答等)的理解和分發(fā),涉及推薦系統(tǒng),以及AI算法賦能內(nèi)容的運(yùn)營。

第二個(gè),將騰訊新聞推送到微信,每次一個(gè)大圖和三條新聞資訊,一共四條,點(diǎn)進(jìn)去有些底層頁能跳轉(zhuǎn)到騰訊新聞APP。

第三個(gè),海豚智音,一個(gè)“聽新聞”神器,主要用于智能音箱、車載音響和智能家電,目前能提供市場上70%的語音資訊;它涉及語音摘要、語音錄制和個(gè)性化語音推薦算法。

第四個(gè),輔助創(chuàng)作(Dreamwriter),涉及寫稿、內(nèi)容創(chuàng)作、篩稿、配圖等非常多的東西,也是本文介紹的重點(diǎn)。

一、算法的框架

算法整體框架由底層算法和上層應(yīng)用組成。底層算法有NLP方面的詞法、句法、篇章理解等、視覺方面的圖像質(zhì)量、圖文匹配、圖像視頻理解等算法,還有針對(duì)搜索的一些基礎(chǔ)算法。

底層算法的上面嫁接了兩大類應(yīng)用,分別是推薦系統(tǒng)和搜索,推薦系統(tǒng)可分為五步。

1. 內(nèi)容處理

它也稱內(nèi)容管理系統(tǒng),里面嵌入了文本分類、打標(biāo)簽、摘要提取、語意分析、內(nèi)容去重、內(nèi)容分析、糾錯(cuò)、配圖、篩稿等等和內(nèi)容處理相關(guān)的算法。

2. 索引

將初選完后的內(nèi)容,即預(yù)備分發(fā)給用戶消費(fèi)的圖文、視頻等資訊,加入索引。

3. 畫像

它可分成基礎(chǔ)畫像和拓展畫像兩部分。基礎(chǔ)畫像通過用戶分類、Tag等興趣點(diǎn)、用戶基礎(chǔ)屬性、用戶地理位置、用戶使用時(shí)間段等情況,為用戶提供個(gè)性化推薦;還可以借鑒第三方提供的畫像,為用戶做相應(yīng)的推薦。

拓展畫像會(huì)有一些隱式標(biāo)識(shí),比如根據(jù)他點(diǎn)擊過的新聞序列,用一個(gè)向量描述他的興趣點(diǎn),而不是將他的興趣劃入某個(gè)分類或標(biāo)簽,這個(gè)向量也會(huì)用在召回和排序中。

4. 召回

根據(jù)用戶畫像描述的用戶興趣以及用戶行為序列,在庫中找他需要的文章。

比如通過畫像的標(biāo)簽進(jìn)行召回、通過模型預(yù)測用戶的畫像和文章的匹配度進(jìn)行召回、根據(jù)用戶的行為序列進(jìn)行召回等等。

召回時(shí),還要綜合考慮文章的熱度,比如四川地震可能不是用戶的興趣,但是是近期熱點(diǎn),也要召回,讓用戶消費(fèi)這篇資訊。

此外,還得考慮人群聚類,用戶可能和其他人群有類似的興趣,但不體現(xiàn)在用戶標(biāo)簽中,這時(shí)就需要做一些聚合,把別人喜歡的東西推薦給用戶。

最終通過上面多種召回途徑在庫里找出比較大的候選文章集合,準(zhǔn)備推薦給用戶,但最終只展示一部分,因此需要進(jìn)入精排選出top的。

5. 精排

這里面涉及到排序算法,把底層最基礎(chǔ)的數(shù)據(jù)維度,比如用戶維度、內(nèi)容維度等設(shè)計(jì)出各種角度的特征。

包括簡單的值特征,以及交叉特征,甚至復(fù)雜的模型計(jì)算出的特征,輸入到DNN+FM模型做點(diǎn)擊和時(shí)長預(yù)估。

它的目的是從而從幾千篇候選資訊中篩出幾十篇,為什么不是10篇、20篇呢?

因?yàn)檫@中間要考慮業(yè)務(wù)需求,比如多樣性因素,不能把用戶感興趣的資訊全給堆出來,要講究文章的多樣性,這里面就涉及到去重打散,要給用戶更多的候選文章。

二、算法賦能內(nèi)容

算法賦能內(nèi)容運(yùn)營,在公司內(nèi)部叫青云項(xiàng)目,英文是Dreamwriter,它的主要目的是通過算法來輔助內(nèi)容的運(yùn)營,提高它的工作質(zhì)量和效率。

新聞內(nèi)容運(yùn)營和流程

先看看這個(gè)項(xiàng)目的背景,作為公司級(jí)的內(nèi)容媒體平臺(tái),有非常多的稿件要入庫,存在稿件的精編、糾錯(cuò)、篩稿、配圖、視頻增量和熱點(diǎn)監(jiān)控這六大問題,整個(gè)流程非常耗時(shí)。

這擠占了編輯參與深度創(chuàng)作的時(shí)間,我們需要通過算法來解放他,讓他更好地創(chuàng)作。

三、算法還能做什么?

1. 自動(dòng)寫稿

輔助創(chuàng)作算法(Dreamwriter)能寫短文、能寫長文,它是如何做到的呢?

答案是基于模版的方法來寫作。

實(shí)際套路是根據(jù)原始的數(shù)據(jù)抓取或者是采買一些實(shí)時(shí)數(shù)據(jù)格式化入庫,然后進(jìn)行邏輯的判斷,再根據(jù)信息的類型、類別選擇相應(yīng)的模版生成稿子去發(fā)布。

這里有兩個(gè)疑問:如何構(gòu)造模版庫呢?如何做邏輯判斷呢?

構(gòu)造模版庫時(shí),先通過人工,比如編輯和運(yùn)營會(huì)先寫比較簡單的稿件模版,基于這個(gè)模版,我們通過算法去迭代。

然后通過模版填充了一些詞,再挖掘出詞在不同語境下的不同模版,再循環(huán)迭代挖掘得到更多的模板。模板進(jìn)入模板庫前,需要人工根據(jù)判斷準(zhǔn)則審核一下。

接下來,我們再結(jié)合深度學(xué)習(xí)生成的模型,提升模版的多樣化。

比如一句話的表述,它可以表述成A,也可以表述成B。通過算法找出A和B的變化,最簡單的是進(jìn)行同義詞的替換。最后再攻克表述銜接性的問題,就能得到一個(gè)更好的模版庫了。

有了模版庫之后再進(jìn)行邏輯判斷,這時(shí)更多的根據(jù)內(nèi)容源、所屬的場景類別決定使用哪些模版。我們現(xiàn)在的模版范圍挺大的,有一些類別是不需要人工審核,就可以直接發(fā)稿。

不過當(dāng)前業(yè)界能自動(dòng)寫稿的場景還是比較有限的,從流程看它比較依賴于算法挖掘出來的模版,當(dāng)模版沒有套路時(shí)就很難做。

比如讓它寫一篇文學(xué)作品,當(dāng)前是做不到的,因?yàn)樗枰擅畹臉?gòu)思。

如果讓它寫一篇財(cái)經(jīng)報(bào)道或者球賽報(bào)道,由于模式比較固定,機(jī)器肯定會(huì)做得很好。

此外,生成式機(jī)器寫稿還存在一些問題,比如新冷詞不能很好地嵌入到文章里、生成的句子會(huì)重復(fù)等。

2. 自動(dòng)配圖

這個(gè)工作在新聞里面非常重要,它的目的是提升用戶體驗(yàn),吸引用戶去瀏覽資訊。

  • 有些文章是沒有圖片的,如何通過算法給它配圖?
  • 當(dāng)文章比較長的時(shí)候,如何實(shí)現(xiàn)分段配圖?
  • 有的文章里面只有一兩張圖,由于三圖文的點(diǎn)擊率會(huì)比單圖的高,如何湊滿三張圖呢?
  • 有時(shí)圖片比較多,如何選出高質(zhì)量的圖,還和語意匹配呢?

最開始選圖時(shí),只要能過濾掉表情圖、微博、文字圖和表格圖就行,這時(shí)使用圖像的分類模型就能實(shí)現(xiàn),缺點(diǎn)是有時(shí)候它選出來的圖和文章的語意匹配度不好。

舉個(gè)例子,比如之前網(wǎng)上畫了一個(gè)戶型圖,標(biāo)題是君住長江尾我住長江頭。意思是說房子特別長,你住這頭,我住那頭,每天要跑很遠(yuǎn)才能見面。

第一版配的圖是它的報(bào)價(jià),但是戶型圖沒有配。

后來利用圖文語意匹配的模型解決了上述問題,整個(gè)語義匹配模型準(zhǔn)確度超過90%,如何實(shí)現(xiàn)的呢?

先對(duì)標(biāo)題或者正文的內(nèi)容做一些標(biāo)識(shí),訓(xùn)練時(shí)計(jì)算正例的圖片特征和負(fù)例的圖片特征之間的相對(duì)距離差,大于一個(gè)閾值,就認(rèn)為語意匹配成功,即正例的圖片比負(fù)例的圖片和文章主題更貼近。

這里引出另一個(gè)問題,即如何選正例的圖片和負(fù)例的圖片?

通過人工在之前分發(fā)過的文章列表中,找和文章語意最相似的圖片作為正例;至于負(fù)例,將在正文里面達(dá)到一定條件的圖片作為負(fù)例,或者隨機(jī)采一些負(fù)例。

在上述基礎(chǔ)之上,對(duì)于無圖的文章,我們先建立一個(gè)圖庫。這個(gè)比較簡單,可以和第三方合作。

還將歷史分發(fā)的有問題的圖片建立另一個(gè)圖庫,并監(jiān)控它的標(biāo)簽。

有了圖庫,無圖、少圖、多圖的文章面臨的配圖難題就迎刃而解了。不過模型還需要進(jìn)一步的改進(jìn),比如圖像所處的位置和文本的匹配,再比如圖像主體和文章想描述的主體之間的語義匹配。

3. 自動(dòng)提取摘要

它可分為兩種:一種是全文摘要,另一種是分段摘要。

如何提取摘要呢?整個(gè)過程可分為四步。

第一步是預(yù)處理,做一些片斷的分析,比如圖像的注釋不適合做摘要,比如整篇文章沒有幾個(gè)字也不適合做摘要。

第二步是給句子打分,就是看看文章的哪些句子更可能被選為摘要的句子。假設(shè)跟文章標(biāo)題最相關(guān)的句子作為摘要候選的句子,據(jù)此提取很多特征,比如句子的位置,在段首或者段尾的句子更有可能表達(dá)最重要的信息。

第三步是句子選擇,結(jié)合句子打分再考慮冗余性和連貫性來篩選句子。

篩選句子時(shí),會(huì)遇到候選句子有很多的情況,需要去掉冗余。這時(shí)先從庫中選一個(gè)句子,再和已選的句子集合進(jìn)行匹配,相似度高的句子就放棄。還會(huì)遇到句子評(píng)分很高,但不能體現(xiàn)文章的核心內(nèi)容的情況,這時(shí)需要做一些處理。

第四步是后處理,對(duì)選出來的句子做一些融合,再形成摘要,再然后通過人工評(píng)價(jià)內(nèi)容是否通順、信息覆蓋是否全。

此外,智能的語音資訊也不能太長,因?yàn)?0分鐘或5分鐘的語音會(huì)讓用戶很煩燥。這時(shí)需要對(duì)一篇新聞資訊提取出幾個(gè)摘要,確保一分鐘之內(nèi)就能讀完。

4. 自動(dòng)生成短視頻

基于摘要配圖,再綜合文本,就能自動(dòng)生成短視頻,即圖文轉(zhuǎn)視頻。

有些文章,特別是娛樂類的圖片比較多,文字也不少,但是沒有對(duì)應(yīng)的視頻,怎樣才能把這些圖文修成一個(gè)視頻呢?

先出一些摘要,再把摘要的句子打散,把這些句子配到每一個(gè)圖片上面。

然后通過人工錄播或合成人聲搞定聲音,再做圖像之間的渲染和背景音樂的選擇,就生成了一個(gè)視頻。

雖然它跟真實(shí)的視頻有一些差距,但是它的效果還是非常好的。

對(duì)于圖片比較少的文章,不足以支撐幾十秒的視頻時(shí),需要通過自動(dòng)配圖先給它配一些圖,再通過自動(dòng)提取摘要萃取文章精華,最后自動(dòng)生成短視頻。

5. 分類平臺(tái)

AI輔助運(yùn)營時(shí),有很多分類,比如文章質(zhì)量分、調(diào)性分、自動(dòng)篩稿、一級(jí)分類、二級(jí)分類、地域分類、題材分類,歸根到底,從算法的角度來說就是分類任務(wù)。

最難的就是定義分類的標(biāo)準(zhǔn),比如說按照質(zhì)量分,質(zhì)量分為三級(jí),什么是一級(jí)、二級(jí)、三級(jí),肯定有一個(gè)標(biāo)準(zhǔn)。

在這個(gè)過程,編輯老師需要和算法團(tuán)隊(duì)頻繁溝通如何制定標(biāo)準(zhǔn),如何標(biāo)注數(shù)據(jù),還得不斷反饋這些標(biāo)注的質(zhì)量。

標(biāo)準(zhǔn)確定后,累積一定樣本就可以通過文本分類方法來做,我們分類平臺(tái)能自動(dòng)訓(xùn)練,模型選擇,評(píng)估和在線服務(wù)化。

6. 自動(dòng)糾錯(cuò)

由于錯(cuò)別字的范圍不太好限定,所以錯(cuò)別字的糾正非常難。

常見的同音或近意錯(cuò)別字,比如發(fā)標(biāo)、發(fā)表,很容易糾正。

再難一點(diǎn)的是搭配錯(cuò)誤,詞或者是字本身沒有錯(cuò)誤,但是它不適合在這個(gè)語境用,搭配錯(cuò)誤涉及到長距離的語意搭配錯(cuò)誤(比如第一遍和第二遍的內(nèi)容不一樣)和短距離的語意搭配錯(cuò)誤。

更難的設(shè)計(jì)知識(shí)內(nèi)的錯(cuò)誤,比如政治問題或者歷史人物信息等錯(cuò)誤。

從應(yīng)用角度來講,靠算法糾錯(cuò)有時(shí)候不一定很準(zhǔn),有些本身沒有錯(cuò)誤但算法提示錯(cuò)誤,比如某一個(gè)人物講的話,這時(shí)需要標(biāo)紅提醒一下。有時(shí)這個(gè)地方可能錯(cuò)了,但算法沒有找到合適的詞去糾正,就有錯(cuò)誤提醒。

自動(dòng)糾錯(cuò)大體可分為兩步:

第一步是對(duì)輸入的文本先進(jìn)行預(yù)處理,再加入一個(gè)規(guī)則系統(tǒng)。通用規(guī)則有成語、諺語,它是約定俗成的,字不對(duì)的話直接糾正過來就行。

第二步是通過模型糾正中高頻詞,通過自創(chuàng)方法糾正低頻詞。一般某一個(gè)字錯(cuò)了,它的分詞也是錯(cuò)的,這種需要結(jié)合上下文進(jìn)行糾正,是比較難的。對(duì)于高頻詞的糾正,可以通過算法模型學(xué)習(xí)來實(shí)現(xiàn)。對(duì)于低頻次,就非常難學(xué)好。

7. 生成簡報(bào)

即綜合好幾篇文章,自動(dòng)生成一篇綜合性的文章,這個(gè)完全由算法來做。怎么做呢?

首先是選文章,根據(jù)過去一天里用戶反饋的信息,拿出一個(gè)候選的文章集合,再從每篇文章里抽取摘要。然后是配圖和選圖,這樣就得到了一個(gè)由標(biāo)題、摘要和圖片組成的比較短的內(nèi)容,之后把這些文章整合在一起。接下來就是生成一個(gè)讓用戶更容易點(diǎn)的標(biāo)題,最后需要人工審一下。

8. 熱點(diǎn)監(jiān)控

熱點(diǎn)監(jiān)控會(huì)對(duì)不同來源的熱點(diǎn)做實(shí)時(shí)監(jiān)控。監(jiān)控之前需要更快地找到熱點(diǎn),如何實(shí)現(xiàn)呢?

第一種是通過微信和微博,微信熱點(diǎn)通過內(nèi)部合作來找到,微博熱點(diǎn)通過抓取大V之間的轉(zhuǎn)發(fā)、轉(zhuǎn)評(píng)贊等方式發(fā)現(xiàn)熱點(diǎn)。

第二種是根據(jù)用戶的消費(fèi)情況找到熱點(diǎn),相對(duì)會(huì)滯后一點(diǎn),比如推薦系統(tǒng)里面的統(tǒng)計(jì)熱點(diǎn)召回。

第三種是通過庫存的網(wǎng)站發(fā)現(xiàn)所謂的熱點(diǎn),比如自媒體的文章同質(zhì)非常多,通過算法得到潛在的熱點(diǎn)。

 

作者:李彪,騰訊PCG新聞產(chǎn)品技術(shù)部算法中心。微信公眾號(hào):騰訊媒體研究院

本文由 @騰訊媒體研究院 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!