OCR技術用于在線身份認證的運營效果分析

1 評論 4607 瀏覽 11 收藏 18 分鐘

編輯導語:當前線上身份認證,主要依賴的仍是OCR技術,即光學字符識別。然而依托于這一技術的在線身份認證服務過程中,用戶流失可能十分嚴重,這是為什么呢?本篇文章里,作者就OCR技術應用于在線身份認證過程中的運營效果做了分析,一起來看一下。

一、線下的身份認證:我國擁有著全球領先的方式

我們在銀行柜臺辦理金融業(yè)務、入住酒店、高鐵通行、營業(yè)廳購買手機SIM 卡號時,必然需要現(xiàn)場身份認證,也就是核驗你的身份證和本人信息。我們只需要掏出身份證,放置在指定的身份證識讀設備上感應一下就可以了,十分便利和安全。

2004年,我國推出二代身份證并大力普及,時至今日應該所有國民都已統(tǒng)一更換了。二代身份證中內嵌有一枚國密智能芯片,加密存儲了公民的所有基本信息(姓名、性別、民族、出生日期、身份證號、證件照片、家庭住址、簽發(fā)機關、有效期,合稱為“身份九要素”)。這些加密信息需要通過專用的身份證識讀設備來解碼讀取,從而同時保證了公民信息的安全和有效。

二代身份證以及身份證識讀設備的普及發(fā)展,讓我們在需要實名認證的各種場合享受到了極大的便利。相比全球其他國家,我國這種人手一張高密安全證件的方式是極其先進的,是我們如今能夠享受世界領先的便捷生活的堅實基礎。

試想,就算有了世界第一的高鐵技術,如果沒有“刷身份證即可通行”的配套保障,仍然需要每個人去柜臺排隊買票、再到閘機驗票方可上車的話,那何來效率提升呢?有過慘痛排隊經驗的人,誰也不想再回到那個時代吧?

從技術底層來說,我們的二代身份證是一張由國家統(tǒng)一制作的高密級安全芯片,發(fā)到每個人手上也就賦予了這個公民可以“自證身份”的權利。

在這方面,我國的管理理念和技術是非常先進的,拿現(xiàn)在流行的話來說,就是很早就采用了去中心化的思維和技術,把信任和便捷最大程度地放到了每個人的手中,只要你手持合法的身份證就可以完全代表你自己,而不需要其他中心化的數(shù)據(jù)庫來驗證。

作為對比,美國等老牌西方國家,至今仍然在用的是基于“社會保障號碼(SSN)”的政府數(shù)據(jù)庫驗證方式,也就是說,你其實是無法獨立驗證自身“你是誰”的,你所能做的僅僅是記住自己的姓名和 SSN 號碼,然后請求政府數(shù)據(jù)庫來校驗這些信息是否正確,如果網絡不好、或者中間過程出了差錯(比如警察作惡、數(shù)據(jù)庫臨時故障等),你就無法證明“你是誰”了。

這兩種方式不能說就一定誰比誰更好了,而是在不同的場景中各有利弊,因此我國其實也具備中心化數(shù)據(jù)庫驗證的公民管理方式。但我們相對獨有的“安全證件”方式,已經在國民經濟場景中發(fā)揮越來越大的保駕護航作用,構成了我國境內特有的便利生活服務。

國外近些年其實也注意到了這個差異,比如法國等歐洲大陸國家就已經在加速發(fā)放他們的國民身份證了,而美國在很多服務場景中其實在推行和使用內含芯片的護照來補充傳統(tǒng) SSN 機制的不足。

二、線上的身份認證:我們與全球其他國家一樣,仍處于發(fā)展早期,主要依賴于 OCR 技術

OCR (Optical Character Recognition,光學字符識別),是指電子設備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。主要用于將紙質文檔中的印刷體文字轉換成計算機能夠處理的文本格式,再供文字處理軟件進一步編輯加工。

身份證雖好,卻在我們的生活越來越多得轉入線上服務的過程中遇到了障礙:手機可不是專用身份證識讀設備,如何才能讀取身份證中的安全芯片信息,從而完成實時的身份認證呢?這里很明顯需要一套全新的技術,但是時間不等人,怎么才能服務當下就已經如火如荼的數(shù)字經濟呢?

當前主流的方式是 OCR。

通過手機攝像頭來拍攝身份證照片,再通過 OCR 技術來提取身份證表面上印刷的文字信息,最終再通過中心化的政府數(shù)據(jù)庫來驗證這些信息是否正確,若成功則留存用戶的身份證影印件以作后續(xù)審計使用。

將這些流程拼接在一起,就構成了完整的 OCR 身份認證服務,如果還有特殊需要就再加上人臉識別比對。這就構成了我們在“手機無法直接識讀身份證芯片”的過渡時期的標準解決方案,也是當前我們在線開展各類需要身份認證的業(yè)務的基礎。

從技術底層來講,我們暫時放棄了中國相對獨有的“去中心化公民自證”特色,轉而使用“中心化政府數(shù)據(jù)庫”的驗證方式,因此在這一領域,我們與西方國家的很多公司就形成了同頻,可以相互借鑒而共同提升技術,但也共同承受這個技術帶來的缺陷和管理風險,比如:OCR技術的識別準確率、人臉識別技術的準確率、個人隱私數(shù)據(jù)的保護、政府數(shù)據(jù)庫的合法合理使用等。

客觀來說,我國在技術方面絲毫不落后,但是在數(shù)據(jù)的管理和保護層面則差強人意,事實上造成了國內的身份數(shù)據(jù)滿天飛的亂象。隨著近期我國《數(shù)據(jù)安全法》、《個人信息保護法》、《網絡數(shù)據(jù)安全管理條例》的發(fā)布和落實,這方面后續(xù)應該會有顯著的改善。

接下來,本文不糾結于 OCR 身份認證服務中的技術和管理問題,而是轉向這個服務的運營效率問題,即:業(yè)務流程中引入 OCR 身份認證服務的用戶留存和轉化效果。

三、OCR身份認證服務的用戶轉化漏斗:不算不知道,算了嚇一跳的驚人損耗

我們來詳細拆解下OCR身份認證服務中的關鍵步驟:

1)從用戶處獲得身份證圖片,可能從相冊里獲取,也可能直接調用手機攝像頭實時拍攝。由于個人將身份證照片存儲在相冊中的安全風險實在太大,且該方式極其容易造假,因此現(xiàn)在以手機銀行為代表的業(yè)務方已禁止使用。本文中只分析第二種獲取方式:即調用手機攝像頭實時拍攝身份證。

2)從身份證圖片中解析出身份要素信息;若無法解析,則回到步驟 1。

3)后臺發(fā)送給某供應商提供的“政府數(shù)據(jù)庫”云端驗證接口,進行信息驗證。若不通過,則回到步驟 1。

對應的轉化漏斗圖如下:

步驟一的用戶流失率是最嚴重的,約達 40%:

1)若用戶的身份證不在身邊,將無法完成本流程。這部分用戶約占 20%。要徹底解決的話需要全新的技術解決方案,比如前些年公安部在試點創(chuàng)新的 eID、CTID 等,但目前來看距離全面的實用化都還很遠,因此可以簡單認為短期內無解。

2)若拍攝效果不好,也將無法完成本流程。這部分用戶也達到20%。一方面是受光線、拍攝角度、拍攝穩(wěn)定性、攝像頭質量等外界客觀影響,導致攝像頭始終無法鎖定聚焦到身份證,另一方面則是因為頁面設計的易用性問題、軟件bug或網絡不穩(wěn)定等原因,導致用戶在過程中放棄。這方面應該可以有很大的優(yōu)化提升空間。

步驟二的用戶流失率彈性很大,約 10%~30%:

可以簡單地認為,該步驟的用戶流失率就幾乎等同于 OCR 識別結果的錯誤率。因為按照風控原則,這一步驟是不能讓用戶手動修正的,否則就失去了身份認證的意義了,因此一旦信息識別錯誤最終就只能回到上一步重新來過。

流失率彈性的關鍵,主要取決于是否需要識別住址信息。

若僅需要識別姓名、身份證號碼乃至身份證有效期,現(xiàn)在業(yè)內成熟的 OCR 算法已可做到 85%以上的正確率,最好的據(jù)說能做到 90%。然而如果要準確識別出身份證上的住址,OCR 的技術難度則幾何級別增長,經常會識別出非法字符。幸運的是,目前除了金融、出行、用工等少數(shù)場景外,對識別住址的需求還并不普遍。

(地址識別為非法字符)

步驟三的用戶流失率,約 5%-10%:

通常來說,只要OCR在第二步中正確識別出身份證信息,就一定可以順利通過“政府數(shù)據(jù)庫”的校驗。

但實際上,受限于自身的業(yè)務風控規(guī)則(如限制未成年人、特殊年齡的人、黑名單用戶等,通常約 5%),以及第三方供應商的數(shù)據(jù)源和服務穩(wěn)定性等原因(通常不到 5%),會導致部分用戶無法通過。

其中,因業(yè)務風控規(guī)則而產生的用戶損耗是無法避免的,但對第三方供應商的質量把控則是可以優(yōu)中選優(yōu)。

綜上所述,完整的 OCR 身份認證服務做下來,用戶流失可能會高達 60%(1-0.6*0.7*0.9),極限優(yōu)化后也會高達30%(1-0.8*0.9*0.95),是不是會很驚人?

業(yè)務還沒真正開始做呢,1/3的用戶已經跑去火星了,這還怎么活?

雖然可以通過其他方式把用戶拉回來再試一次,但終究是個讓人害怕的運營黑洞。必須要解決才好。

從關鍵因素來看,需要解決的要點在于:優(yōu)化拍攝身份證照片這個過程的不確定性,和OCR 識別信息(特別是大段地址信息)的準確度。如果這兩個過程能夠做到無損,則整個服務流程的用戶流失率可以降低到75%(1-0.8*1*0.95),而且都是由于純粹的客觀因素而造成的,不會引發(fā)用戶的不滿,或者說對于有價值的用戶,不會產生無謂的損耗。

那這兩個過程解決起來的難度有多大呢?筆者現(xiàn)在還在請教專業(yè)人士,但就目前所聞,并不算樂觀。

四、還有一些值得注意的潛在風險:黑天鵝事件隨時會到來

做業(yè)務不可能完全零風險,這是當然的。但我們需要知曉風險的可能來源,并提前做好一定的準備,特別是那些涉及到合規(guī)層面的隱患。絕大部分公司在實際設計和使用 OCR 身份認證的流程中,普遍存在如下兩種潛在風險:

1. OCR 的識別是否在使用“SaaS 公有云服務”?

若采購并本地化部署OCR 軟件,那就不存在本條所說的隱患。但是因為價格較高,絕大部分公司還是傾向于選擇第三方供應商提供的、按次付費的 SaaS 云服務,這就存在“個人信息保護”的風險隱患了。

將用戶的身份證圖片傳輸給這些第三方供應商,是否應該征得用戶的明確同意呢?但若在流程中加入提示并等待用戶選擇的話,留存轉化率是否會更低呢?其實,將用戶信息提交給某某供應商提供的“政府數(shù)據(jù)庫”去校驗,也是同樣的問題。

2. 是否考慮過對身份證圖片的驗真呢?

OCR 技術說穿了畢竟只是對圖片的識別和計算,如果這個圖片本身就是被惡意偽造的,那 OCR 身份認證流程完全是不設防的(這里我們不考慮再加入人臉識別技術作為輔助驗證手段,一方面這必然會帶來更高的成本和更低的用戶轉化,另一方面人臉識別有自身的適用場景和安全風險問題會將本文的主題給帶歪)。

然而又該如何在整個流程中加入反欺詐呢?很不幸,非常之難。如果惡意分子偽造一張身份證,單純使用 OCR 身份認證流程是無法辨別出來的,而這種偽造成本也極其低,比如:通過覆膜將身份證上的地址和有效期改掉,或者頭像換掉。

因此,對于金融、政務、租賃、出行、用工等領域的公司,需要慎重考慮自身被惡意分子盯上的風險。

注意,以上兩個潛在風險都是由于“身份認證”業(yè)務本身的特殊性所帶來的,而非 OCR 技術所源生的。

但是,隨著數(shù)字經濟的盛行,國際國內對傳統(tǒng)業(yè)務的合規(guī)監(jiān)管也必將延伸到在線業(yè)務中來,比如 KYC(Know Your Customer)就是通行的準則,不僅要識別認證出正常的用戶,更要防御住少數(shù)惡意分子造成的巨大破壞。

在此背景下,OCR身份認證服務需要考慮的,就不僅僅是流程的順暢了。

五、展望未來:在線身份認證過程的用戶轉化效果還能提高么?

在本文的結尾部分,我們可以大膽做出一些“必然”的預測和與之相關的疑問:

1)在線身份認證在今后的數(shù)字經濟中,重要性和必要性只會越來越強,因此當前的用戶轉化效果是絕對無法滿足業(yè)務需要的,必須要大幅提升才行。但是這個重任,是否一定由 OCR 身份認證來擔當呢?

2)KYC 等監(jiān)管要求的提升,其實是與近年來國際國內的網絡欺詐事件顯著提升有直接關系的,因此目前看來只會進一步增強。是否有合適的產品,能做到讓各方都滿意的身份防偽造呢?

3)我國極具特色的二代身份證安全芯片,在移動互聯(lián)網已經如此盛行的時代真的就無法發(fā)揮其優(yōu)勢么?我們認為,這點必然會解決突破的,屆時我國的在線身份認證,應該可以走出另一條更新、更好的方式來!

如果大家有更好的想法,可以在評論區(qū)告訴我。

 

本文由 @鯨 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 關于對身份證圖片的驗真有幾點討論:
    – 偽造身份證圖片的情況:(1)僅照片是偽造的,姓名和身份證號真實存在;(2)除照片是偽造外,姓名、身份證號也是偽造的
    – 針對情況(2)可以使用公安部提供的注銷驗真接口,通過【姓名+身份證號】,校驗當前公民信息是否存在,不需要增加的用戶操作
    – 針對情況(1)是需要依賴人臉識別的,先進行人臉圖像采集、活體檢測、人像比對(身份證圖像和人臉圖像)輸出高質量人臉圖像,再使用公安部的相關接口,通過【姓名+身份證號+人臉圖像】校驗當前公民信息存在。且通過活體檢測基本能保證當前為用戶本人操作。

    來自北京 回復