AI應用實例分析——文本糾錯
編輯導語:AI在現實中的應用有很多,你有沒有想過,它還可以進行文本糾錯呢?傳統的校對既耗時又枯燥,通過AI糾錯,不僅能更快完成,還能提高準確度。那么AI“文本糾錯”背后的原理是什么呢?和我一起看看吧!
前面跟大家分享了AI開放平臺的相關內容,之后想圍繞AI應用實例這塊跟大家分享交流,這節主要講述跟NLP相關的一個應用實例——“文本糾錯”。
一、背景
雖然這幾年短視頻在內容傳播方面發展得很火,但是文稿仍然占據重要地位。而文稿傳播最重要的一點就是信息的準確性,尤其是一些有知名度的正式平臺更是會在文稿發送前進行校對修正。
傳統的人工校對工作量是非常大的,一篇5000字的文稿完成校對差不多需要1-2個小時,對于校稿人員來說既耗時又枯燥。有一家內容平臺就提出,希望我們通過AI能力提供快速校對工具,主要針對中文文稿,幫助校稿人員和編輯人員減少內容錯誤。
為了滿足該需求,我們基于NLP技術提供了文本糾錯服務。
二、關鍵技術
文本糾錯中用到的技術的前世今生在這不過多介紹了,目前文本糾錯的主流方向還是使用機器學習的方式來完成,其中需要用到的核心技術主要包括語言知識學習、上下文理解和知識計算。
- 語言知識學習:可以理解為是對語言規則等先驗知識的學習,通過學習詞法、句法等規則進行語言模型構建,例如中英文的主謂賓結構就是不一樣的。
- 上下文理解:是指分析錯誤點上下文語境和語義,從糾錯候選中選擇最合適的。尤其是中文,相同的詞匯在不同語境中往往表達不同的含義。
- 知識計算:知識計算主要包括關聯知識計算和文本理解,關聯知識主要是通過對全局知識的統計來實現糾錯,可以是局部不完整語句的補充。文本理解是通過統計理解全局句子內容,解決低頻領域知識的泛化問題。
三、產品設計
1. 應用場景
(1)用戶場景:審稿或者編輯人員輸入中文文字信息,系統自動糾錯,并給出修改建議,審稿人員對錯誤快速修訂。
(2)應用邊界:
- 支持用詞錯誤檢測,針對音近、形近的錯字和別字進行糾正
- 支持句子級錯誤檢測,主要是針對句子中出現的多字、少字等錯誤,相對難度校大。
- 支持場景類錯誤糾正,這類錯誤需要具備一些特定領域的知識才能識別糾錯,所以盡量支持。
2. 產品定位
- 產品定位:為應用工具型產品,實現中文文本自動糾錯功能。
- 用戶定位:滿足兩類B端用戶,第一類針對具備自主的文稿編輯工具,提供API服務,與現有系統進行改造融合;第二類是針對缺少文稿編輯工具的用戶,提供web頁面功能。
3. 產品業務流程
產品核心業務流程主要是產品端和算法端的交互,具體業務流程如下:
4. 產品功能設計
(1)頁面功能設計
頁面核心功能主要包括如下:支持內容上傳、內容審查、結果確認和內容下載。
主要頁面設計如下:
(2)API接口設計
包括內容糾錯請求接口和結果回調接,分別用于內容審查糾錯和結果返回,以下描述主要的輸入和輸出參數:
- 輸入:接口鑒權、文本內容、文本編碼格式等。
- 輸出:文本分析結果,包括源文本、糾錯文本、文本位置,置信度。
5. 評估指標
產品上線前,需要對產品的性能進行評估,主要包括三個指標:誤報率、召回率和處理時間。
- 誤報率:代表正確的句子被改錯的比率,等于正確句子被糾錯的個數/正確句子的個數。
- 召回率:代表錯誤的句子被全部糾正的比率,等于含有錯誤的句子被改正的數量/所有含錯誤的句子數量。
- 處理性能:代表處理多少個字符的耗時,單位是千字耗時,s/千字符。
四、結論
文本糾錯是NLP非?;A的場景應用,但是實際業務價值卻是很大的。在具體業務場景應用方面不僅可以用在在媒體編輯、電子病歷等輸入文本糾錯,還可以應用于語音搜索、客服問答等業務。
本文由@Eric_d 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于CC0協議
專欄作家
Eric_d,人人都是產品經理專欄作家。關注AI、大數據等領域,擅長需求分析、產品流程和架構設計等,日常喜歡徒步。
本文原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
我的天呢,現在真的能智能糾錯嗎,這可真的是太神奇了,看來又要有一部分人做好轉行的準備啦~
已經在用了啊,但是還需要人工去做復查,確保不會被誤判,不過相對純人工還是會很大提供工作效率的啦
ps:闊以轉行做AI工具啊~,hhh
??!那以后會不會校對就沒有工作了啊,AI能校對語法錯別字,但校對不了感情的表達呀
不會的啊,除非算法能做到萬無一失,不然還是需要人工的參與,只是人工效率提升了呀~
改正錯字還可以,但是如果技術不夠,那就不是一項好的想法了,未來該不會是AI評改作文吧
應該不至于全靠AI的,畢竟還有很多情感問題是AI解決不了的
網絡上太多的諧音梗很容易造成詞匯正確拼寫的混淆,真真假假分不清了現在
是的啦,很多諧音梗是容易造成誤判,主要還是實際場景要不要將這個諧音詞當做是錯誤的,比如數智化,也基本被接受了,所以可以考慮訓練時注意或者加入白名單