語音識別關鍵詞,如何獲取房產成交信息?

4 評論 4392 瀏覽 15 收藏 11 分鐘

針對房產中介平臺無法及時獲取成交信息的現象,語音識別關鍵詞的應用能夠有效解決這個問題。不過,你知道獲取關鍵詞后的篩選與識別是怎么做的嗎?正文將為你揭曉答案。

近年來隨著互聯網、GPU/CPU硬件的發展,語音識別的準確率有了很高的提升,并開始在商業上進行應用。不管是國內百度的小度助手,還是Google Assistant、亞馬遜Alexa,早已不再滿足于“語音助手”的身份,在功能上開始向語音對話、內容服務、IoT設備管理等方向演進,幾乎所有的互聯網巨頭都對語音勢在必得。

人工智能慢慢步入了我們的生活,為我們帶來便利的工具值得去挖掘。語音識別技術在房產市場是如何應用的呢?除了語音助手外,期望能通過語音識別功能幫助業務提升效率。本文復盤了語音識別關鍵詞在房產中的應用,以此總結項目中的收獲和不足,也期待對您有所幫助。

平臺供給房源,但房源成交后,不能及時獲取成交信息。所以需要從房主、經紀人、平臺三方去考慮如何獲取到成交信息:

  • 從房主切入,可以在房主小程序/APP提供房主停售的入口,也可以通過短信或者模板消息觸達到房主,提醒房主若有成交,及時反饋給平臺。
  • 從經紀人切入,可以提供反饋機制,通過成功反饋贈送積分的方式,激勵經紀人主動反饋。
  • 從平臺切入,平臺已通過阿里的虛擬號,獲得經紀人和房主的通話錄音,可通過語音轉文字識別出疑似成交的房源。

語音轉文字

為保護房主隱私,平臺從阿里購得AXB中間號,阿里提供通話錄音及轉文字功能,識別的文字通過接口回調到平臺,依賴于阿里轉文字效率,所以文字識別會有時間延遲,在識別策略中,會考慮時間的因素。有了文字后,下一步要提取關鍵詞,識別成交房源。

關鍵詞識別分析

1. 目標:通過錄音關鍵詞識別出成交的房源。

2. 指標:召回率和準確率是對策略質量評估的方法,可以通過召回率、準確率、誤判率等檢驗上線后的質量評估。召回率代表策略對問題的解決程度,而準確率、誤判率代表策略有沒有帶來其他傷害。

?召回率=識別總數/理想成交數 準確率=識別成交數/理想成交數 誤判率=誤判數/識別總數

3. 影響因素:

  • ①錄音轉文字的準確度
  • ②關鍵詞的準確度
  • ③經紀人撥打電話的頻次

①和③受外部因素制約,本次版本暫時不考慮,重心放至關鍵詞的準確度上。

4. 需要人工干預:由于以上三個制約因素,識別的結果不一定100%準確,平臺需要安排專職人員對識別結果進行人工判斷,防止誤判。

提取關鍵詞

拉取3000條錄音轉文字數據,用Excel初步分析,過濾不需要的重復詞,例如語音詞、象聲詞、問候詞等,再用Wordart(https://wordart.com/)分析,找到關鍵詞。

1.0版本

1. 關鍵字提取時間:通話錄音轉換文字成功后,每30min對未處理的內容識別一次。

2. 識別策略:若錄音內容中,涉及如下關鍵字,則認為該錄音命中“疑似成交”關鍵詞。

  • ①賣完
  • ②已經賣了
  • ③暫時不賣
  • ④我不賣了
  • ⑤賣了好久了
  • ⑥早都賣了

3. 增加人為審核操作,并記錄處理人和處理時間

4. 識別結果中展示識別文本和錄音,可隨時校驗結果

策略質量評估

1. 召回率、準確率和誤判率分析

對上線后一天的數據進行了分析,召回了25條數據,其中19條命中成交,6條誤判,還有7條數據沒有識別出。

對誤判數據進行分析,“賣完”這個關鍵詞出現在誤判里的頻次很高,針對該關鍵詞,下一步需要優化識別策略。

對未識別數據進行分析,“賣了”這個關鍵詞出現的頻次很大,但這個關鍵詞爭議較大,會出現在經紀人的問話中,例如:“您賣了嗎?”如果用它識別,誤判率會很高。

2. 功能問題

①同一房源存在多條錄音,每條錄音都要處理,較繁瑣。

②平臺上房源下架有統一接口,所以審核和下架是兩個分開的功能操作,審核房源后,遵循排序規則:待處理>已處理,數據自動下沉,尋找當前房源做下架處理較繁瑣。

③處理狀態沒有顯示在列表上,不能直觀看見處理結果。

1.1版本

1. 規則優化

針對1.0上線,拉了1000條錄音進行分析,發現顯性關鍵詞命中率很高,所以優先判斷顯性關鍵詞,若無顯性關鍵詞,通過非顯性關鍵詞和時間維度去判斷,一般房子賣了,經紀人的通話都會很短。

①判斷文字中是否有以下關鍵詞,若有,則認為疑似成交:

已經賣了、暫時不賣、我不賣了、賣了好久了、早都賣了、先不賣了、不想賣了

②若無上述關鍵詞,則判斷語音時長,若時長<1min,且包含下列關鍵詞,則認為疑似成交:

不賣了、賣了、賣完、沒有了、撤了、下架、取消

2. 功能優化

(1)狀態優化:列表顯示狀態“未處理、已成交、未成交”3種。

(2)若一個房源有多條未處理的數據,處理最近時間的一條,該房源所有之前未處理的數據狀態變更為相應的狀態,處理時間&處理人同理。

(3)列表刷新邏輯優化:完成“審核”后不刷新列表,僅變更狀態、處理人、處理時間等相關數據。再次進入菜單,才刷新整個頁面。

策略質量評估

召回率、準確率和誤判率分析

對上線后一天的數據進行了分析,召回了26條數據,其中12條命中成交,14條誤判,還有1條數據沒有識別出。

通過上面的數據發現:增加非顯性關鍵詞+時間的識別,準確率增加,但是也召回了很多非成交數據,所以誤判率也增高。雖然滿足寧可錯殺一千,也不能漏一個的原則,但還會拉更多的數據進行分析,優化時間維度的策略。

上述案例中,通過優化關鍵詞策略,提高召回率,運用了策略質量評估方法,判斷召回造成的影響,下一步要降低誤判率。

在實際操作中,錄音轉文字的準確度影響也很大(見上圖),我們也做了相關的數據統計,在未識別數據中,有30%的數據屬于文字準確度不高導致的,這個無法避免,機器對噪音的抗噪性不夠強,另外,語音識別并沒有理解語義,若雙方都用方言講話,識別的準確率會更低。

語音識別,在這幾年有了極大的發展,從算法到模型都有了質的變化,在加上語音領域(語音合成等)的其他研究,語音技術陸續進入工業、家庭機器人、通信、車載導航等各個領域中。本項目借助語音識別技術轉文字,再通過文字關鍵詞識別出成交房源,讓語音識別在房產市場得到應用。

專欄作家

余田,人人都是產品經理專欄作家,數據產品經理,《用戶至上-用戶研究方法與實踐》譯者。

本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 我是不會給你這個權限的

    來自云南 回復
  2. 學習了~感覺還挺好玩

    來自北京 回復
  3. 學習了

    來自重慶 回復
    1. ?? 共同進步

      來自遼寧 回復