狠狠综合久久久久精品网站,久久精品国产亚洲av麻豆不卡,中文字幕无线乱码人妻

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

QQ看點日報內容優化——基于BERT的熱點召回系統

騰訊大講堂

2019-12-12

1 評論 10670 瀏覽 41 收藏

14 分鐘

基于BERT搭建了看點日報熱點召回系統，大大提升了看點日報熱點內容量等核心指標，本文將會詳解看點日報熱點召回系統的總體框架及核心方法。

一、業務背景

看點日報旨在為用戶提供新熱、優質的文章，對熱點事件及文章的及時捕捉有著非常強的需求，從海量文章中人工發現熱點文章無疑是巨大的運營成本，所以自動發掘熱點文章是必要的需求。

而發掘熱點事件的時效性、熱點事件的覆蓋度、文章聚合成事件的效果、熱點事件召回文章的召準率、熱點文章的質量等是熱點召回系統的核心指標。

我們通過高頻實時爬取大量互聯網數據，以及基于BERT模型進行熱點事件聚類及文章標題匹配等方式，有效提升我們熱點文章召回系統的各項核心指標。

在熱點文章召回量方面，每天召回熱點文章的數量從1K+上升到1W+。每天看點內被啟用的文章數量為8W左右，其中有超過10%的文章會被我們的熱點系統召回作為熱點文章。
在召準情況方面，在找最match標題的測試中，我們基于BERT模型準確率高達98.4%，能召回看點中被啟用文章的熱點事件比例也高達93.5%。

二、Why BERT？

在應用BERT之前，我們實現了一版BiLSTM-DSSM的模型，但由于準確率不夠高被棄用。

在找最match的標題測試中，BERT與BiLSTM-DSSM的效果對比如下：

QQ看點日報內容優化——基于BERT的熱點召回系統

BERT的原理在網上已經有很多詳細的資料，這里就不再重復，本小節簡單描述BERT有哪些強大的優勢使它能比LSTM等其它模型強大。

優勢1

BERT采用pre-train+fine-turning的訓練模式，基于超大量語料進行pre-train，在pre-train過程BERT已經能學好單詞、句法、語義等特征，具體任務只需用較少量的數據進行fine-truning。

像我們的任務需要標注語料進行訓練，提供超大量的標注數據是難以實現的，而使用BERT則能以較少量的標注數據完成好我們的訓練任務。

優勢2

BERT是雙向語言模型，擁有上下文信息。相比GPT（單向語言模型）和ELMO（粗暴的雙向語言模型，前向和后向簡單相加），BERT有得天獨厚的優勢。

QQ看點日報內容優化——基于BERT的熱點召回系統

優勢3

BERT采用Transformer作為特征提取器，在Transformer誕生之前，RNN占據著NLP領域的主導地位。而相比RNN系列的特征提取器，Transformer具有兩點優勢：RNN不可并行，BERT可并行；RNN很難捕捉長序列的依賴關系，Transformer可以。

RNN結構如下，從h[t-1]到h[t]經過激活函數，變化極大，在距離較遠的傳遞過程會產生梯度消失和梯度爆炸。

QQ看點日報內容優化——基于BERT的熱點召回系統

為了解決這一問題，又提出LSTM等RNN的變種，其結構如下。

從下面公式中可以看出，細胞狀態從C[t-1]到C[t]只經過線性的變化，不會馬上有很大的變化。但當C[x]與C[y]相距很遠時，C[x]與C[y]也很可能變得完全不相關，C[x]的變化可能不會對C[y]有太大影響，從而丟失很遠的信息。

QQ看點日報內容優化——基于BERT的熱點召回系統

而Transformer每個位置都公平地相互做self attention，self attention中任意位置之間進行比較，長度都只有1，因此無論序列多長都不會出現信息丟失的現象。

QQ看點日報內容優化——基于BERT的熱點召回系統

基于self attention的Transformer是更強的序列特征提取器，self attention=探索序列內部的關系，對每個位置提取q、k、v向量，通過Attention公式計算當前位置對其他位置的關注程度。

QQ看點日報內容優化——基于BERT的熱點召回系統

三、模型訓練

keyterm-aware masking

我們的BERT模型是12層Transformer的中文字模型，為了能更好適應業務數據，我們先以看點內的標題和爬取的新聞標題數據讓BERT模型進行自監督學習。

具體做法是mask一些詞語并讓bert預測，一些如流量明星、游戲、動漫等看點中高頻出現的tag，會以更大的概率被mask掉。先基于業務語料的自監督學習讓BERT更熟悉業務數據，再進行語義匹配的fine-turning。

fine-turning

BERT針對語義匹配問題，最常見的網絡結構如下圖所示，直接輸入句子pair，判斷pair中的兩個句子是否匹配。

QQ看點日報內容優化——基于BERT的熱點召回系統

但這種網絡結構不利于我們的業務使用，因為每新發現一個熱點事件話題，就得用此話題與所有的文章標題組成標題pair再輸入到BERT里預測是否屬于同一個事件。

看點內一天被啟用的文章量在8w左右，這無疑需要很長的時間去計算，會嚴重影響熱點文章的時效性。為了提高性能，我們采用了DSSM（深度語義匹配模型）的網絡結構，如下圖所示，DSSM的表示層為BERT模型。

QQ看點日報內容優化——基于BERT的熱點召回系統

這種DSSM網絡結構的優勢在于，BERT可將單個標題進行向量化處理，而不是處理標題pair。這樣我們能預先計算BERT標題向量并存儲到內存數據庫，線上文章召回時可直接讀取BERT標題向量進行匹配。

四、數據構造

難點

需要標注數據規模大，且標注難度大
訓練數據需要切合業務，同時保證多樣性

第一期訓練數據：自動構建數據集+公開數據集

標注數據問題是NLP模型訓練的一個難題，對我們的任務來說也是非常難解決的問題。

我們的模型訓練需要大量標注數據，需標注標題pair是否同屬于一個事件。大規模數據進行人工標注的難度非常的大，成本極高，所以在第一期的訓練數據中我們應用自動構建數據集的方法。

我們自動構建的數據格式為‘title1 tiltle2’的標題pair，title1是互聯網上爬取回來的標題，title2是看點中的文章標題，所有標題pair都是正樣本。訓練時采用多分類的方法，當前標題pair作為正樣本，當前title1與其余標題pair中隨機找255個title2組成255個標題pair作為負樣本。

訓練數據采用關鍵詞匹配的方式自動產生，具體產生方法如下：