如何用深度學習模型,解決情感分析難題?
本文以情感分析為分享主題,并分析了情感屬性分析的挑戰以及如何利用深度學習模型解決此類問題。
Meltwater通過機器學習提供情感分析已超過10年。第一批模型于2009年部署了英語和德語版本。今天,Meltwater in-house支持16種語言的模型。本博客文章討論了如何使用深度學習和反饋循環向全球3萬多個客戶大規模提供情感分析。
什么是情感分析?
情感分析是自然語言處理(NLP)中的一個領域,涉及從文本中識別和分類主觀意見[1]。情感分析的范圍從檢測情感(例如憤怒,幸福,恐懼)到諷刺和意圖(例如投訴,反饋,意見)。情感分析以其最簡單的形式為一段文本分配屬性(例如,正面,負面,中立)。
讓我們看幾個例子:
Acme 到目前為止,是我遇到過的最糟糕的公司。
這句話顯然表達了負面意見。情感由“最糟糕的公司”(情感短語 the sentiment phrase)承載,并指向“ Acme”(情感目標 the sentiment target)。
明天,Acme和NewCo將發布其最新收入數據
在這種情況下,我們只有關于“ Acme”和“ NewCo”的事實陳述。語句是中性的。
NewCo 在過去一年的創紀錄銷售數字和股市飆升的支持下,它成為第一個在其平臺上積累1萬億美元資產的養老金計劃。
這次,我們在積極的語義環境中使用了諸如“支持”,“創紀錄銷售”之類的短語,指的是“ NewCo” 。
Meltwater通過機器學習提供情感分析已超過10年。第一批模型于2009年部署了英語和德語版本。Meltwater現在擁有16種語言的in-house模型:阿拉伯語,中文,丹麥語,荷蘭語,芬蘭語,法語,印地語,意大利語,日語,韓語,挪威語,葡萄牙語,西班牙語和瑞典語。
我們的大多數客戶都通過媒體監控儀表板(圖1)或報告來分析情感趨勢。較大的客戶可以通過Fairhair.ai數據平臺以豐富文檔的形式訪問我們的數據。
圖1:Meltwater Media Intelligence媒體監測儀表板。
該產品的一個重要特征是,用戶能夠覆寫(override)算法分配的情感值。覆寫的情感屬性被索引為Meltwater的Elasticsearch集群中同一文檔的不同“版本”,在構建儀表盤和報告時,為客戶提供了他們的情感的個性化視圖(圖2)。
圖2:Meltwater的媒體情報內容流中的“情感屬性”覆寫下拉列表。
每個月,我們的客戶都會覆寫大約200,000個文檔中的情感值。每天有6,500個文檔!那么,為什么情感很難如此正確呢?
情感屬性分析的挑戰
人類語言的某些細微差別是挑戰性的來源之一。舉一些例子:
處理否定語義:
貴公司情況如何?還不錯!我對最新的財務狀況并不非常滿意 ……
我們在這里有三個句子,第一個是中性的,第二個是肯定的,但包含“錯”,通常在否定的上下文中使用,第三個是否定的,但包含“非常滿意”。
諷刺語義:用這樣的句子
今天又下雨了…… fun times!
盡管表達了“fun times”,但該文本可能是諷刺的,并表達了負面情感。
比較性語義:
我喜歡新的Acme手機,它們比NewCo的手機好得多。
這里的“愛”和“好得多”等表達帶有積極的情感,但是,對于“ NewCo”來說,評價卻是負面的。
取決于讀者角度的語境:
阿克梅警察局今天逮捕了8名涉嫌襲擊和搶劫的人員。該團伙幾個月來一直在恐嚇社區。
除單詞的含義外,以上所有內容都需要理解上下文。
一個必須解決的實際問題是精度和速度之間的權衡。Meltwater每天對大約4.5億個文檔進行情感分析,范圍從推文(平均長度約30個字符)到新聞和博客帖子(長度可達到600-700,000個字符)。每個文檔必須在20毫秒內處理。必須保證速度!
傳統的機器學習方法(如樸素貝葉斯(na?ve Bayes),邏輯回歸和支持向量機(SVM))因具有良好的可擴展性而被廣泛用于大規模的情感分析?,F已證明深度學習 (DL)方法在各種NLP任務(包括情感分析)上都可以實現更高的準確性,但是,它們通常較慢,并且訓練和操作成本更高[2]。
“舊”方法:貝葉斯情感
到目前為止,Meltwater一直在使用多元樸素貝葉斯(na?ve Bayes)情感分類器。分類器需要一段文本并將其轉換為一個擁有特征值的矢量 (f1, f2,…, fn)。
然后,分類器計算最可能的情感正負屬性S j,即正,負或中性,前提是我們觀察到文本中的某些特征值。這通常寫為條件概率語句:
p(Sj | f1, f2,…, fn)
通過找到最大化下面的公式的S j,從而獲得概率最大的情感正負屬性。
log(p(Sj)+log(p(fi | Sj))
讓我們將以上理論應用于我們的情感問題。p(Sj)的值是找到“本質上”具有特定正負屬性的文檔的概率??梢酝ㄟ^將大量文檔集標記為正,負或中性,然后計算找到其中具有給定情感政府屬性的文檔的概率,來估計這些概率。理想情況下,我們應該使用所有曾經的文檔,但這是不切實際的。
例如,如果語料庫由以下帶有標簽的文檔組成:
- D1: My phone is not bad (正面)
- D2: My phone is not great (負面)
- D3: My phone is good (正面)
- D4: My phone is bad (負面)
- D5: My phone is Korean (中性)
然后 p(Sj)的值是:
- p(正面)= 2/5=0.4
- p(負面)=2/5=0.4
- p(中性)=1/5=0.2
我們使用一個簡單的單詞袋模型來導出我們的功能。我們使用一元語法,二元語法,和三元語法。例如D 1轉換為:
(My, phone, is, not, bad, My phone, phone is, is not, not bad, My phone is, phone is not, is not bad)
p(fi | Sj)的值即為在語料庫中被標記為S j的文檔中看到某個特征的概率。
我們可以使用柯爾莫哥洛夫對于條件概率 的定義p(fi | Sj)=p(fi∩Sj)/p(Sj),來計算其值。例如,對于特征值“bad”:
- p(bad | 正面)=p(bad ∩正面)/p(正面)=0.2/0.4=0.5
- p(bad | 負面)=p(bad ∩負面)/p(負面)=0.2/0.4=0.5
- p(bad | 中性)=p(bad ∩中性)/p(中性)=0/0.2=0
給定一個文檔(例如“My tablet is good”),分類器基于文本的功能為每個情感政府屬性計算出一個“得分”,例如對于“正面性”,我們得到:
log( p(POS | my, tablet, is, good, my tablet, tablet is, is good, my tablet is, tablet is good))
即為:
log( p(POS) )+log( p(my | POS) )+ … +log( p(tablet is good | POS) )= ?13.6949
同樣適用于“負面性”和“中性”,從而產生以下按序的得分:
- log(p(正面 | …)) = ?13.6949
- log(p(中性 | …)) = ?16.9250
- log(p(負面 | …)) = ?18.1709
然后分類器得出的答案是:“正面性”是最有可能的情感正負屬性。
樸素貝葉斯(na?ve Bayes)分類器運行很快,因為所需的計算非常簡單。但是,就準確性而言,此方法可以實現的功能有限,例如:
- 準確的分類依賴于代表性的數據集,即,如果訓練集偏向某個情感正負屬性(例如中性),我們的分類也可能產生偏向。準確性還取決于培訓語料庫是否足夠涵蓋了我們所在意的語言。
- 樸素貝葉斯(na?ve Bayes)的假設基于特征的獨立性,即使得出的情感正負屬性排名是正確的,得出的概率也不是那么可靠[3,4]。
- 當使用樸素貝葉斯和詞袋模型時,作為訓練標簽的顆粒度僅僅為文檔,通常會導致結果不佳。
- N-gram(元) 語言模型是一種鈍器。如果將自己限制為3元,我們將無法正確捕獲例如“not quite as bad”這樣的4元表達式。但是,增加上下文的大小會破環特征空間,從而使分類器變慢,但不一定結果更好。
Meltwater的NLP(自然語言處理)團隊的任務是改善所有支持語言的情感分析。由于訓練新模型是一項復雜且昂貴的工作,因此團隊首先研究了利用我們現有的技術堆棧來改善情感分析的快速方法。
改進1:句子級訓練和分類
我們進行的第一個改變,是訓練貝葉斯模型的方式?,F在,我們不是在整個文檔的粒度上進行訓練和分類,而是在句子級別進行訓練和分類。以下是一些優點:
- 與整個文檔相比,將標簽分配給單個句子(或上下文中的表達式)要容易得多,因此我們可以眾包培訓集的標簽。
- 多年來,學術研究產生了可免費獲得的帶標簽的數據集,用于情感分析評估。其中大多數處于句子級別,因此我們可以將其納入我們的培訓集中。
- 我們可以將句子級情感與命名實體和關鍵短語提取一起使用以提供實體級情感(Entity-level sentimate,ELS)。
然后,我們決定通過堆疊分類器“挑選”有意義句子的情感,將句子級別的情感匯總為文檔級別的情感,以產生整個文檔的情感。
圖3:在2018年第二季度(左)和2019年第二季度(右)中記錄的情感屬性覆寫-所有語言。
這些簡單的更改對減少客戶每月做出的情感屬性覆寫次數產生了巨大影響。特別是,在16種受支持的語言中,新聞文檔的情感屬性覆寫平均減少了58%。
該分析涉及7,193個客戶產生的約4.5億個新聞文檔和4.2百萬個覆寫項。圖3顯示了2018第二季度(文檔級預測)和2019第二季度(句子級預測+匯總)進行的覆寫數量之間的比較。
改進2:新的深度學習模型
同時,Meltwater的NLP團隊一直在努力改進我們的技術堆棧,以分析兩種主要語言(即英語和中文)的情感,涵蓋Meltwater處理的每日內容的約40%。
我們嘗試了多種技術,例如卷積神經網絡(CNN),遞歸神經網絡(RNN)和長短內存網絡(LSTM),目的是在準確性,速度和成本之間找到良好的折衷方案。
由于在準確性,速度和運行成本之間進行了很好的權衡,我們決定選擇基于CNN的解決方案。CNN主要用于計算機視覺,但事實證明,它們對NLP的表現也非常好。我們的解決方案使用Tensor Flow,NumPy(具有MKL優化),GenSim和EKPhrasis在Python中實現,以支持哈希/現金標簽,表情符號和表情符號。
體系架構
簡化的架構如圖4所示。它包括一個嵌入(輸入)層,然后是單個卷積層,然后是最大池化層和softmax層[5]。
圖4:簡化的模型架構(來源:Zhang,Y.和Wallace,B.(2015)。卷積神經網絡用于句法分類的敏感性分析(和從業人員指南)
嵌入層
我們的輸入是要分類的文本。至于貝葉斯方法,我們需要根據其特征來表示文本。我們將文本嵌入為矩陣。
例如,文字“I like this movie very much! ” 表示為具有7行的矩陣,每個單詞一行。列數取決于我們要表示的功能。與貝葉斯案例不同,我們不再自己設計功能。相反,我們現在使用經過預訓練的第三方單詞嵌入。
詞嵌入可大規模捕獲語義相似性。這些嵌入是可公開獲得的,并由第三方機器學習專家培訓的神經網絡生成。對于英語,我們使用斯坦福大學的GloVe嵌入對8400億個單詞進行了訓練常見抓取并使用具有300個特征的向量。我們也嘗試過BERT和ElMo,但準確性/成本之間的權衡仍然支持GloVe。
對于中文,我們使用騰訊AI的嵌入,該嵌入針對200萬個特征向量的800萬個短語進行了訓練。使用我們自己的訓練數據集通過轉移學習對向量進行微調。目的是確保嵌入內容考慮Meltwater的PR /營銷要求。
卷積層
CNN的核心是卷積層,在其中訓練人工神經元以從嵌入中提取顯著特征。在我們的例子中,卷積層由英語的100個神經元和漢語的50個神經元組成。
優點再次是,我們不必嘗試和設計功能,網絡將學習我們需要的功能。缺點是我們可能無法再知道這些功能是什么。點擊這里以了解更多的卷積層的細節,點擊這里了解更多黑盒問題的闡述。
最大池化(Max Pooling)
池化的思想是在特征圖中捕獲最重要的局部特征,以減少維數,從而加快網絡速度。
SoftMax層
合并的向量被合并為單個向量,并傳遞到完全連接的SoftMax層,該層將對極性進行實際分類。
數據集
對于英語,除了GloVe嵌入之外,我們還有23,000個內部標記的新聞句子和6萬個社交句子,包括SemEval-2017 Task 4提供的Twitter數據集。對于中文,除騰訊AI嵌入外,數據集還包含來自新聞,社交和評論的約38,000句子。
該數據集使用Amazon的SageMaker Ground Truth通過眾包進行注釋。在訓練之前,使用二八原則對數據集進行分層和隨機排序,即,我們使用80%進行訓練,使用20%進行驗證。
結果
與貝葉斯方法相比,這個簡單架構已經使該模型在句子級別產生了明顯更好的性能(表1)。英文社交文本的收益為7%,中文(社交和新聞相結合)的收益為18%,英文新聞的收益為26%。
在文檔級別進行匯總之后,與貝葉斯方法相比,我們發現英語級別的文檔級別情感屬性覆寫數量進一步減少了48.06%,中文級別的情感屬性覆寫為29.24%。
表1:CNN與樸素貝葉斯(英語和漢語)的情感準確性。
情感分析的準確性到底有多高?F?1?分數基本可以衡量模型得出的結果和人工注釋相比的準確性。研究告訴我們,人工注釋者僅在80%的情況下同意結果。
換句話說,即使假設100%準確的模型,在20%的情況下,人類仍然會不同意該模型[6]。實際上,這意味著我們的CNN模型在對單個句子進行分類時的表現幾乎與人工一樣好。
連續的提高
到目前為止,情感覆蓋的結果從未被反饋到情感模型中。NLP團隊現在已經設計了一個反饋循環,可以收集客戶不同意CNN分類器的案例,以便我們可以隨著時間的推移改進模型。
然后將覆蓋的文檔發送到Fairhair.ai Studio(圖5),在此處注釋者在每個級別(即實體,句子,部分(即標題,入口,正文)和文檔)重新標記它們。
圖5:Fairhair.ai Studio:Meltwater的注釋工具
每個文檔由不同的注釋者多次注釋,并由高級注釋者進行最終審核。最終客戶有時會參與此過程。當我們的注釋人員不精通特定語言時,會將標簽轉移給第三方眾包工具。
Meltwater是Amazon SageMaker Ground Truth的重度用戶(圖6)。使用眾包時,我們會增加所需注釋器的數量,因為它們可能不如我們內部培訓的注釋器準確。
圖6:AWS SageMaker GT幫助Meltwater標記2690個中文文檔5次
注釋完成后,新的數據點將由我們的研究科學家進行審查。審查過程包括確保這些覆蓋不會故意偏向我們自己的模型,或跟從需要特定模型的特定客戶偏見。
如果數據是正確的,則將其添加到測試集中,即,我們不想通過將其添加到訓練集中來過度擬合該數據點。我們需要該模型能夠從其他數據點歸納正確答案。
我們將收集性質相似的數據,并攜帶必要的知識來正確分類覆蓋的文檔。例如,如果發現分類錯誤發生在討論金融產品的文檔中,那么我們將從Elasticsearch集群中收集金融類文檔。
綜上所述
我們對所有語言改變了訓練和應用貝葉斯情感模型的方式,這使新聞文檔上的文檔級情感屬性覆寫次數平均減少了58%。
現在,我們支持所有16種語言的句子級和實體級情感。對我們而言,實體可以是個有自己名稱的實體,例如“福特”,也可以是關鍵短語,例如“客戶服務”。
我們針對英語和漢語部署了深度學習情感模型。他們的句子準確性在英語和漢語中分別為83%和76%。他們進一步將新聞文檔的文檔級別腹瀉率降低了48.06%(英語)和29%(中文)。
新模型考慮了#標簽,例如#love,表情符號和表情圖示。
我們有一個反饋環來不斷改善我們的情感模型。
關于作者
- Stanley Jose Komban博士是Meltwater的高級研究科學家
- Raghavendra Prasad Narayan是Meltwater的高級研究科學家
- Giorgio Orsi博士是Meltwater的首席科學家兼(NLP)工程總監
參考文獻
[1] Bing Liu. Sentiment Analysis: mining sentiments, opinions, and emotions. Cambridge University Press, 2015.
[2] Daniel Justus, John Brennan, Stephen Bonner, Andrew Stephen McGough. Predicting the Computational Cost of Deep Learning Models. IEEE Intl Conf. on Big Data. 2018.
[3] Irina Rish. An empirical study of the naive Bayes classifier. IJCAI Work. on Empirical Methods in AI. 2001.
[4] Alexandru Niculescu-Mizil, Rich Caruana. Predicting good probabilities with supervised learning. Intl Conference on Machine Learning. 2005.
[5] Ye Zhang, Byron Wallace. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification. Intl Joint Conf. on Natural Language Processing. 2015.
[6] Kevin Roebuck. Sentiment Analysis: High-impact Strategies – What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. 2012.
本文由 @Meltwater 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自@Unsplash, 基于CC0協議
- 目前還沒評論,等你發揮!