国产综合久久久久久鬼色,欧美亚洲综合成人a∨在线

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

AI與產品| NLP技術及其在百度APP中的應用

灼華一品

2022-06-16

0 評論 3298 瀏覽 39 收藏

16 分鐘

編輯導語：NLP的技術應用十分廣泛，應用的場景也十分廣泛。本篇文章作者分享了NLP的四大經典任務——文本分類、文本匹配、序列標注和文本生成，介紹了這幾個任務以及相關的業務，感興趣的一起來看看吧。

百度文心（ERNIE）是大規模語義理解技術與平臺，依托百度深度學習平臺飛槳打造，集先進的預訓練模型、全面的NLP算法集、端到端開發套件和平臺化服務于一體，提供一站式NLP開發與服務，讓開發者更簡單、高效地定制企業級文本模型。

通過百度文心的NLP技術，現在的百度APP不僅是搜索引擎，還有各種生活化服務以及智能應用場景。

一、NLP及其任務介紹

要走進百度，我們先來了解一下NLP是什么？

NLP是Natural Language Processing的縮寫，中文意思是自然語言處理，是人工智能和語言學領域的分支學科。

此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步驟，基本有認知、理解、生成等部分。

通俗點理解，NLP就是讓機器理解自然語言（人類的文字），然后讓機器處理，并進行運用。

NLP應用非常廣泛，例如搜索引擎，機器翻譯，各種輸入法如搜狗、微軟、谷歌等以及帶有語音識別的計算機和手機。

NLP有四大經典任務，文本分類、文本匹配、序列標注和文本生成。接下來我來為您一一介紹這幾個任務及其相關應用：

1. 文本分類

文本分類是指用計算機對文本(或其他實體)按照一定的分類體系或標準進行自動分類標記。為了方便理解，我們用下面的方式介紹：

輸入用文本X表示，輸出標簽用Y表示
如果Y表示X屬于某一個類別的概率，或者一組類別的概率分布，則可抽象成文本分類問題。

如上圖是文本分類的幾種應用案例。文本分類可以分為單標簽分類、多標簽分類和句對分類。

在情感分析的例子里，我們要判斷一句話是消極的還是積極的，比如評價一個房子“房間太小，其他的都一般”，它要么屬于消極要么屬于積極，是一種二分類，也叫單標簽分類。

還有一類問題是新聞主題分類，比如說“中美元首就經貿關系通話“，這個新聞標題同時屬于時政、國際和財經三個類別，這三個類別是相互獨立的，可以同時出現，所以是多標簽分類。

還有一類是文本蘊含，它輸入的不是一段文本而是兩段文本，要判斷兩段文本之間是否存在邏輯上的包含關系，是相關關系、對立關系還是說中立的，沒有任何關系。比如”大家覺得她好看嗎“和”大家覺得跑男好看嗎“這兩句話就是中立的，沒有任何關系。

2. 文本匹配

輸入文本用X表示，輸出標簽用Y表示
如果X是兩段文本（X1，X2）， Y表示二者的相似度，則可抽象為文本匹配問題。

如圖兩句話“喜歡打籃球的男生喜歡什么樣的女生”和“愛打籃球的男生喜歡什么樣的女生”這兩句話基本意思是一樣的，所以是相似的，標簽Y為1。

若不相似，則為0?；蛘哂幸欢ǖ南嗨贫?，則在0-1之間打一個分。

文本聚類問題可以通過文本相似度問題進行處理。而相似度是兩個文本之間語義層面距離的遠近。

3. 序列標注

輸入文本用X表示，輸出標簽用Y表示；
如果X是一段文本， Y是一段與X等長的文本，且X與Y的每個字符一一對應，可抽象為序列標注問題。

序列標注的一個經典任務是命名實體識別。比如“海釣比賽地點在廈門與金門之間的海域”這句話，我們抽出兩個實體，廈門和金門，這兩個實體都是地址，我們就可以將其標注為地址，而其他詞語標注為非地址，用O表示。

分詞、詞性標注、組塊分析、語義角色標注、詞槽挖掘都是典型的序列標注任務。

相信大家都做過閱讀理解，閱讀理解其實就可以理解為特殊的序列標注，X是2段文本（X1，X2），分別表示正文篇章和問題，Y是篇章中的一小段文本，表示對應問題的答案。

4. 文本生成

輸入文本用X表示，輸出標簽用Y表示；
如果X是一段文本，Y是一段不定長的文本，則可抽象為文本生成問題。

最典型的文本生成問題是機器翻譯。如圖例，我輸入的是一段英文，輸出的是一段其他語言的文字，這兩段文字的語言和詞可能不是那么一一對應的，可能原語句賓語在前謂語在后，后面那段目標語句可能是賓語在后謂語在前。

文本摘要、標題生成、閑聊等都是典型的文本生成任務。

二、NLP應用

NLP典型應用場景有新聞咨詢推薦、商品評價分析、智能客服對話、社交言論分析、金融風險洞察等，業務的需求千差萬別，所以場景的需求都是定制化的需求。

企業級NLP應用要著重考慮三個指標，效率、效果和效能。

第一是效率，效率指的是開發的效率，如人力成本、時間成本等，人效要越高越好。
第二是模型的效果，這是定制化需求里最關注的指標，有時候甚至會不計成本一定要拿到最好的效果，因為有時候模型效果高一兩個點就可能對公司或者集團帶來巨大的收益。這樣就需要進行高精度標注數據以及專家級的經驗。
第三是效能，這是一個更加宏觀的點，它關注的是應用部署上的靈活，應用為整體業務帶來的價值。它關注的是從產品和用戶的角度來說帶來的收益。

三、百度文心（ERNIE）

ERNIE是百度開創性提出的基于知識增強的持續學習語義理解框架，該框架將大數據預訓練與多源豐富知識相結合，通過持續學習技術，不斷吸收海量文本數據中詞匯、結構、語義等方面的知識，實現模型效果不斷進化。

ERNIE在情感分析、文本匹配、自然語言推理、詞法分析、閱讀理解、智能問答等16個公開數據集上全面顯著超越世界領先技術，在國際權威的通用語言理解評估基準GLUE上，得分首次突破90分，獲得全球第一。

1. ERNIRE2.0（持續學習語義理解框架）

ERNIRE2.0是基于持續學習的語義理解預訓練框架，使用多任務學習增量式構建預訓練任務。在ERNIE2.0中，新構建的預訓練任務類型可以無縫的加入訓練框架，持續的進行語義理解學習。通過新增的實體預測、句子因果關系判斷、文章句子結構重建等語義任務，ERNIE 2.0 語義理解預訓練模型從訓練數據中獲取了詞法、句法、語義等多個維度的自然語言信息，極大地增強了通用語義表示能力。

ERNIE2.0的優點就在于持續學習，不斷的基于海量的數據以及先驗的知識集成到ERNIE模型中，不斷的在不同任務中訓練來提升模型的效果，而且還不會忘記。

在多任務學習或者持續學習中，模型特別容易發生災難性遺忘。在一個場景下訓練好了模型，在另一個模型下效果可能就不好了。甚至本來原來場景下效果比較好的模型，在新的場景下訓練后，再去之前的場景下得到的效果是災難性下降的。所以就需要多任務學習、持續性學習，使得模型有非常好的泛化能力和通用效果。