精品国精品自拍自在线,欧美日韩国内精品麻豆91,狠狠躁夜夜躁人人躁婷婷

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

用AI加強產品設計·識別篇——如何利用文字識別（OCR）、語音識別（ASR）和機器翻譯（NMT）提升用戶體驗

王也弱

2023-02-12

0 評論 12813 瀏覽 35 收藏

16 分鐘

作為一名產品經理，超自然地滿足用戶需求，用戶體驗就會更好。在日常中，大家很難將自己看不懂的文字或者不同APP的一些信息直接轉化到這個APP中，這時候使用一點AI是我們的最佳選擇。本文帶你快速地了解到如何應用AI到你的產品里，希望對你有所幫助。

作為一個產品經理，讓我們負責的產品成功的關鍵在于場景、需求和痛點——越自然地滿足用戶的需求，用戶的體驗就會越好。

比如我們看看這幾個例子——

在快遞、閃送這個場景下，用戶的收件人地址信息通常在另外一個App里，想要有時甚至復制和粘貼都做不到。是否能對收件人的姓名、地址這些信息進行截圖、識別、智能填寫？至少我們需要把這個截圖里的文字識別出來。
在旅游的過程中，用戶如何快速看懂身邊的文字？有時用戶不只是看不懂——大概率連輸入都做不到（日語的假名、泰語的文字），至少我們要先把它轉成文字，然后再進行翻譯，對吧？

為了解決這些痛點問題，人工智能（AI）能力很有可能是你最佳的選擇，而做一個“懂一點AI”的產品經理很可能在這個新的時代里是PM的必備技能。在這篇博客里，我們會探索三種特定的人工智能功能——圖像文本識別(OCR)、語音識別(ASR)和機器翻譯——以及如何應用它們來增強我們的產品并為用戶提供價值。

當然，值得注意的是，還有很多其它的AI能力，在日后的文章中我們會一一介紹。在這篇博客中，我會只關注這些和文字、識別和快速理解相關的三個能力，而這三個作為整個AI世界里最容易理解的基礎能力，能快速地帶你了解到如何應用AI到你的產品里。

I. 圖像文字識別（OCR）
II. 語音識別 (ASR)
III. 機器翻譯
IV. 總結
V. 一些額外的閱讀建議

一、圖像文字識別 (OCR)

很多人應該都有這樣的困擾，比如在逛淘寶的時候，想要去搜索詳情頁的大圖里的文字簡直難于上青天，因為圖片里的文字是沒法復制的。一些不太懂一些“歪門斜道技術”的人也很難破解那些“禁止右鍵”或“禁止復制”的破網站的限制，拿到想要的文字。有時你也可能需要從截圖里獲取文字，或者快速掃描手頭的文檔、電子化課堂里的板書。這些場景正是OCR的用武之地。OCR是Optical Character Recognition（光學字符識別）的縮寫，更多的我們會叫它“文字識別”或者“圖像文字識別）。在現在的手機App里很容易找到OCR的身影，如微信最近的更新使得你可以在聊天記錄中搜索文字，會找到提到這個文字的圖片；iOS的實況文本功能可以在輸入框中快速錄入現實生活中的文字等等。

OCR是一種讓計算機能識別和提取圖像中的文字的AI技術。它的工作原理（簡化到六歲小孩能理解的難度的話）可以認為是AI通過研究各種圖片里文字的形狀和模式，學會了在圖片里“找文字”并把每個文字與已知的字符去匹配，最后告訴你“字在哪”和“這些字是什么”的技術（當然這個解釋非常地不科學，你就將就看吧）。有了這個技術，再加上一些非常簡單的交互和UI就可以做到根據需要去編輯、搜索或存儲你提取的文本了。

如引入部分提到的，OCR的一個常見用例是在快遞行業。在填寫收件人信息時，用戶通常會截取表單的截圖并提取文本以便快速填寫。OCR使這個過程更快更有效，因為用戶不必手動輸入所有的信息。而且在截圖場景下，像手機號的識別準確率會非常非常高。

OCR還可用于各種其他行業，如醫療保健、金融和教育。例如，OCR可用于從醫療記錄、財務文檔和學生成績單中提取和組織信息。在一些特殊的模版下,OCR能力結合一些圖像處理的技術,也可以把一些固定格式的內容快速提取出來,形成結構化的信息并錄入到數據庫中;當結合一些自然語言處理(NLP)技術時,也可以做到一些非結構化的信息提取。

然而，在使用OCR時還是會有一些需要考慮的問題的。其中一個挑戰是，你想讓OCR識別得準，你的圖片就得很高清優質。如果圖像模糊或扭曲，OCR可能就沒辦法很準確地識別了。有一個比較容易理解的評估方式就是，如果人能輕松認出這個字是什么，機器的準確率通常會很高；但如果人需要費很大的勁，甚至需要結合上下文去猜測，那么機器一般就不是很能準確地進行識別。

另外，像一些潦草的手寫，用通用的OCR有時也會識別困難。當然，通用的AI能力在特殊的場景下，一般比不過對這個場景做專門優化的能力。比如在有道智云這個AI開放平臺里，通用文字識別、手寫文字識別和公式識別是三個不同的接口。比如在教育場景下的公式識別，可以識別出LaTeX格式的公式，讓在客戶端渲染公式時更輕松容易。在我們的產品中如果有相應的場景，可以去接入試試看。

二、語音識別 (ASR)

語音識別，或者說ASR（Automatic Speech Recognition，自動語音識別），則是讓計算機聽懂“語音”的技術。它能將語音轉換為文本，使用戶無需打字就能更方便地輸入信息或發出命令。

ASR通常用于智能語音助手，如Siri和小愛同學，以及各種叫“轉錄”或“聽寫”的軟件。還是拿微信舉例子，微信的語音轉文字就是一個非常典型的ASR能力的例子，沒有它你可能每天都被（你討厭的）某些朋友進行60s轟炸。其它的例子比如如語音輸入法、語音導航等等。它還可以用于各種行業，包括客戶服務、教育、音視頻行業等等。

例如，在客戶服務行業，ASR可用于創建交互式語音應答(IVR)系統，讓用戶可以用語音就和“外呼機器人”對線。當然更早期還沒有現在這么智能的機器人，早期其實是做一些簡單的“回答”就可以讓用戶找到他們需要的信息，有效減少了（某些公司——合理懷疑——根本就不存在的）人工客服。在教育行業，ASR應用還是很廣泛的，比如在線課程的字幕識別、學生的課文背誦和語音問答等等。最新的B站也終于加了“字幕自動識別”，結合后文的機器翻譯就可以快速理解原本不懂的外文影片了。

在產品里集成ASR的好處可太多了。主要的原因其實就是它能解放雙手，不需要再去打字，這樣無論是輸入速度還是精確性都會提高不少，產品的可用性也會有提升。

和所有其它AI能力一樣，在使用語音識別能力的時候，要特別注意使用場景，同時也會搭配一些額外的能力使用。如實時交流的過程中，需要加入VAD能力來判斷用戶的一段話是否已經說完（在有道智云這些能力都已經集成進了接口中），同時對時延的要求非常高，通常要求時延在200ms以內。相對的，在長語音文件轉寫的場景里，用戶等待的時間就可以適當放寬，在產品設計上可以批量提交后系統轉寫再通知用戶完成（異步處理）。一般來說，一個商用的ASR系統的加速比一般是在1:30、1:50甚至更高，即半小時的音頻，在一分鐘就可以轉寫完畢，大家可以在產品設計的過程中參考這一數字。

然而，在使用ASR時也有一些問題需要考慮。其中一個挑戰是，這項技術可能并不總是能準確識別不同的口音或方言。此外，背景噪聲會干擾ASR過程的準確性。當然，和OCR一樣，如有道智云這種面向開發者的AI平臺一方面會充分考慮通用性，在系統內部進行了對噪聲的處理，同時兼容不同的方言和口音，有必要的時候還可以考慮通過聲紋識別等新的技術進行優化，另一方面如果有特殊的需求（如對某種特定方言的準確識別），也可以和他們的商務聯系來獲得更積極的支持和優化。

三、機器翻譯

機器翻譯是一種讓計算機將文本內容從一種語言轉換成另一種語言的技術。它可以用來實時翻譯網站、文檔，甚至是對話。

機器翻譯適用于各種行業和場合。例如，在社交相關的產品上，跨語種的交流總是會有語言障礙。加入了機器翻譯后，跨語種的交流就成為了可能。同時像產品描述或客戶服務查詢這種官方提供的文檔，也可以在低成本的條件下可以輕易拓展更多國家的用戶群。同時，翻譯能力可以讓我們的產品更容易為說不同語言的人所接受，從而使我們能夠接觸到更廣泛的受眾，也可以提高溝通的效率和信息傳遞的速度。

和上文我們提到的OCR、ASR能力結合在一起，會起到更奇妙的化學反應。

當輸入是圖片時，可以進行圖片翻譯，這種翻譯方式除了結合了OCR、機器翻譯外，還使用了多種新技術（如對抗生成網絡、篇章語義理解等等），使得不僅能讓用戶快速理解圖片中的文字，甚至可以把文字直接繪制在背景上，就好像原本照片上就是目標語種的文字一樣，這樣能大大降低用戶的理解難度。

而當輸入是語音時，又有一些新的玩法。比如可以實時地進行會議場景下的字幕翻譯，還可以和一些其它的語音技術相融合。比如可以直接把翻譯后的內容讀出來（TTS技術），甚至可以用你自己的聲音讀出來（聲音復刻的PR稿，鏈接）。

當輸入是PDF這類文檔時，由于文檔有可能是圖片格式、有可能是文字格式，需要配合針對性的解析服務（pdf轉word）來使用。有道智云也提供了“文檔翻譯”這樣的能力（可以公有云接入，也可以私有化部署），直接上傳pdf、excel、ppt等格式的文檔，就可以下載對應的譯文。

然而，在使用機器翻譯時，也有一些需要考慮的問題。翻譯的質量不一定在任何情況下都很好，特別是對于那些更復雜或有很多習語和文化參考的語言。在這種情況下，有可能需要一些術語庫（鏈接）甚至是專業領域模型的支持。比如有道智云提供了醫學、金融、計算機等多個領域的專有領域模型。此外，機器翻譯過程有時會改變原文的語氣或意圖。比如日語中的敬體、敬語，在和中文互譯時，受限于語言本身的差異，有時就會丟失掉原本聽話人的感受（比如中文很難表述出日本人花樣繁多的敬語之間的細微差異）。當然，隨著技術的發展，這些問題也在慢慢地解決中

四、總結

在這篇博客文章中，我們探討了如何將圖像文本識別（OCR）、語音識別（ASR）和機器翻譯應用于識別信息并為不同行業的用戶解決他們的痛點。作為產品經理，重要的是在了解這些AI能力之后，考慮這些技術如何提高產品的價值和吸引力。有了像有道智云（鏈接）這樣的AI開放平臺，將這些AI功能集成到產品中是很容易的。他們提供了所需的基礎設施和算法，因此你就可以專注于改善用戶體驗并為客戶解決挑戰。

如果你有興趣將這些AI功能集成到你的產品中，接下來你可以采取以下幾個步驟：