新聞行業中,自然語言理解技術該如何應用?

3 評論 4930 瀏覽 20 收藏 9 分鐘

在信息爆炸時代下,要想快速獲取有價值的內容非常困難,這一點在新聞行業中尤為明顯,而本文提到的自然語言理解技術將會是一個不錯的解決建議。

自然語言理解技術在新聞行業中的應用

現如今,人類生活在一個信息大爆炸的時代。我們每個人每天所接受的新聞信息量對于一個生活在一百年前的人來說,是無法想象的。

然而,相較于一百年前的人,我們同樣只有一雙眼睛,我們一天所擁有的時間同樣只有24小時。因此,如何在有限的時間內獲得盡可能多的,有價值的新聞信息,成為了當下最值得人們關注的問題之一。面對這一棘手的問題,人工智能技術為我們帶來了有效的解決方案

本文將分別從新聞媒體機構和新聞讀者這兩類群體的視角出發,盤點當前自然語言理解(NLP)技術在新聞媒體領域中的部分應用。看看人工智能技術如何幫我們更加從容地面對這信息焦慮的時代。

1. 面向新聞媒體公司的應用

目前,全球的媒體機構都在努力尋求以最佳的方式將最新和最有趣的信息分享給自己的讀者,于是,“新聞推送服務”的質量就成了各家新聞媒體的核心競爭力。

“新聞推送服務”旨在有效地向新聞讀者提供最相關和最有價值的新聞內容。 為了實現這樣的服務,系統需要分析和判斷用戶的偏好并與找到相關的新聞內容,而這樣的任務需要處理大量的數據。 這樣的數據處理任務恰恰是自然語言理解技術(NLP)所擅長的。

新聞媒體公司往往需要兩種不同類型數據的采集,來創建有效的新聞推送服務。

第一類是新聞信息的數據。

我們需要獲得有關新聞的文本,音頻和視頻內容信息,內容信息包括主題,關鍵字,情感,以及實體。這些數據將用于新聞知識圖譜的構建,新聞知識圖譜能夠對新聞內容進行快速搜索,并通過內容關聯信息獲得有效的推薦。

第二類是用戶行為的數據。

我們需要收集用戶在互聯網上所產的時間序列數據。 通過對用戶行為的跟蹤,算法將結合收集到的數據以及相關的元數據來學習用戶的行為習慣,了解用戶的興趣點。將用戶感興趣的新聞內容有針對性的傳遞給用戶。

不同的公司將推送服務建立在不同的數據導向上,其業務模式的特色也有所不同:

以新聞信息數據為導向的公司善于做新聞內容分類和摘要提取。

這類公司讓用戶自主選擇感興趣的新聞話題,然后通過深度學習和NLP技術分析大量的新聞數據,整理來自不同網站和其他非結構化來源的信息,并根據不同的主題,關鍵字,人名和企業自動對新聞進行分類,快速找到用戶感興趣的新聞內容。

以用戶行為數據為導向的公司更多的是聚焦在用戶的習慣和興趣點上。

這類公司通過深度學習算法,通過一段時間對用戶查閱新聞的跟蹤學習后,掌握用戶的閱讀偏好,再直接依靠NLP技術分析新聞文本的內容,理解新聞的含義,將用戶的閱讀偏好與新聞內容相匹配,實現個性化新聞推送服務。

2. 面向新聞讀者的應用

對于新聞讀者來說,智能的“新聞推送服務”可以有效的控制所接受新聞的數量,幫助用戶節省查找新聞的時間。然而,真實世界中,每天都會產生出大量的假新聞,這些新聞內容往往扭曲現實,存在偏見。不少新聞媒體為了謀求利益,只關注新聞的瀏覽量,而忽略了新聞內容的質量和真實性。

人工智能技術在賦能媒體公司實現個性化新聞推送的同時,也在嘗試為新聞讀者排除掉垃圾信息和虛假新聞。NLP技術能夠分析特定新聞項目的偏見和歧義,以幫助讀者將假新聞位從海量的信息中分離出來。

目前,NLP技術在新聞質量的檢測的工作上有兩個方面的應用。一個是對虛假新聞的鑒別工作,另一個是對偏見新聞觀點的判別工作。

假新聞鑒別的應用主要是依靠兩種實現方式。

一種方式是通過NLP技術對新聞信息的上下文語境進行全局理解,分析某個新聞觀點與其所在的整篇新聞內容的關聯,判斷真實新聞和虛假新聞之間的差異。 當前流行的方法之一是TF-IDF(術語頻率 – 逆文檔頻率)矢量化器,該技術用于判斷一個詞在文章中的重要性。

另一種方式是直接通過信息距離算法對比不同新聞來源的新聞內容,針對同一個新聞報道向讀者提供不同的解釋和分析角度,從而幫助用戶將新聞中的謊言與事實分開。

新聞偏見判別的應用其實算是假新聞鑒別的一個進階版應用。在真實生活中,大部分新聞報道或多或少都會存在偏見色彩。即使是針對同一個事件的報道,只要稍微調整報道中所使用的語言,就可以反映出截然不同的觀點。

然而,市場上目前就新聞偏見的問題并沒有成熟的解決方案。NLP技術在這一問題上做了很多科研方面的嘗試,其思路是通過訓練一組向量機(SVM)模型,從不同的維度對一條新聞的內容進行打分,計算每個評判要素的得分,然后得出該條新聞偏見程度的分數。這樣的模型只能識別出具有明顯偏見色彩的新聞,在真實的應用場景中還并不成熟。

總結

今天,在這個信息過量的時代,我們迫切的想要找到一個有效的方法,來獲取自己感興趣,并且高質量新聞信息。自然語言理解技術正在不斷的優化我們獲取新聞的方式,并幫助我們把控新聞的質量。

  • 對于新聞媒體公司來講,NLP技術可用于對新聞內容進行分類,根據讀者的興趣和喜好實現個性化新聞推送服務。
  • 對于廣大新聞讀者來說,依靠NLP技術可以鑒別出新聞內容的真偽,從而不被假新聞和帶有偏見色彩的新聞所欺騙。

以目前新聞產生總量的發展趨勢來看,未來我們的生活當中將會出現遠比現在更多的新聞信息。幸運的是,海量的新聞數據恰恰可以更好的推進NLP技術在新聞媒體領域的應用。屆時,NLP技術將進一步加速其在各種新聞服務中的部署和落地應用。

 

本文由 @單贏 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 您好,我想轉載您這篇文章,可以嗎

    來自北京 回復
    1. 謝謝您對這篇文章感興趣。我本人非常歡迎您與我交流和轉發這篇文章,但是我不太清楚“人人都是產品經理”的平臺是否對轉載有其他限制

      來自加拿大 回復
    2. 那能不能加我微信啊 xc-0523 ,謝謝您??

      來自北京 回復