淺談如何通過數(shù)據(jù),驗證地圖單點信息(POI)的準確性
編輯導語:如今數(shù)據(jù)分析和機器學習是很火熱的領域,近幾年各行各業(yè)都已經采集了大量的數(shù)據(jù),如何利用數(shù)據(jù)提高效率成為了問題的關鍵。
作為一個C端產品經理,最近工作原因有幸與某廠的地圖部門聊到了單點信息(POI)的準確性這個問題(主要是店鋪的開張與否),在當今大數(shù)據(jù)和機器學習如此火熱的時代,自己有目的的對此問題做了一個淺顯的分析,寫一篇小文章請地圖相關的PM一起來指正一下。
目前來看,單點信息主要以人工方式進行驗證,大多數(shù)依靠人工掃街和商戶認領。信息流程處理復雜,費時費力,數(shù)據(jù)的延遲相對嚴重,沒能充分利用已有數(shù)據(jù)。
下邊將從一個具體案例入手,歸納總結,以點帶面,升級為一套可執(zhí)行方案。
一、案例分析
案例的選?。喊咐赇佋谏磉叢荒芴啵绫憷?,因為便利店旁邊就有很多替代品;也不能太少,如大型商超,開張關門的頻率基本很低,不具有參考價值。所以案例使用洗衣店這種非高頻卻是必須品的店鋪。
案例:小區(qū)門口有家洗衣店,需要判斷其是否仍然健在開張營業(yè)。
案例分析:數(shù)據(jù)的產出來自方方面面,但是其本質來源于人類的日?;顒?,洗衣店的參與者包括了洗衣店消費者(Customer)、老板店員(Owner)和供應商(Supplier,以洗衣店為用戶的服務提供商),下面對三種角色的行為軌跡進行分析,從而發(fā)現(xiàn)其可利用的數(shù)據(jù)點。
1. 來自消費者的判斷
首先消費者的洗衣流程:
以上是洗衣店消費者將臟衣服送洗的流程圖,從上圖可以發(fā)現(xiàn),能夠充分判斷洗衣店在開張營業(yè)狀態(tài)的路徑有兩條,通過數(shù)據(jù)來驗證的方式有兩個:
- 用戶通過地圖軟件查詢到目的地并撥打電話后,在一定允許的時間差內,導航到該目的地。由于我們可以在用戶允許的前提下獲知用戶是否使用了該點的電話信息,同時,可以在用戶允許的前提下獲知到用戶在調用了電話信息后的2小時內(時間可以修正),通過地圖軟件導航到了該目的地,或者通過與地圖軟件合作的軟件(SDK接入者)或硬件(合作車商),導航或打車到達該洗衣店,那證明該洗衣店開張的可能性較大。
- 用戶到達店鋪后,進行下單支付。該數(shù)據(jù)我們不能在地圖本身拿到,但是若有支付合作商擁有該場景應用,再用戶允許的前提下,我們在后臺將該洗衣店的收款賬號與點信息匹配,當一天內有超過3筆(數(shù)量可以修正)收入后,那證明該洗衣店開張的可能性極大。
從圖中可以看出,店面有可能關門的路徑有三條,通過數(shù)據(jù)來驗證的方式是兩種:
- 用戶撥打電話后,繼續(xù)搜索和查看其它洗衣店
- 用戶在該洗衣店附近,搜索或導航到另一個洗衣店
2. 來自老板店員的判斷
以上是洗衣店消費者的洗衣流程圖,下邊再看一下店員的流程圖,從而尋找可以從店員身上找到可利用數(shù)據(jù)點。
從老板店員來看:
- 首先可以從店鋪建立開始,在用戶允許的前提下,將每天都會規(guī)律性到達洗衣店的地圖軟件用戶保存在洗衣店的信息中,當這些數(shù)據(jù)有異常變化時,就可以對店鋪營業(yè)情況及時進行驗證和管理;
- 和上邊消費者判斷行為一樣,可以通過店鋪內的消費支付情況判斷其是否營業(yè);另外,由于一個店鋪對于水電的使用基本是平穩(wěn)的,在用戶允許的前提下,通過支付合作商的生活繳費功能數(shù)據(jù),也能獲取其是否營業(yè)中的信息;
- 通過接入地圖軟件SDK的跑腿APP是否在該店產生訂單,來判斷其營業(yè)情況
來自供應商的判斷
對于洗衣服的用戶來說洗衣店是服務提供商,但洗衣店在整個市場中,自己本身也是客戶,其他供應商,包括為洗衣店提供洗衣耗材用品的商家或個人,以及給店員提供生活服務的商家或個人(如外賣等),在用戶允許的前提下,這些供應商產生的行為數(shù)據(jù)可以拿來對洗衣店的營業(yè)情況進行驗證:
- 由于店鋪的經營一般都會歸于平穩(wěn),洗衣耗材供應商會呈規(guī)律式的來送貨,當我們通過數(shù)據(jù)分析,將一個人判讀為供應商時,若其周期性運動軌跡出現(xiàn)異常時,其服務的這家洗衣店就存在關門的可能;
- 另外在用戶允許的前提下,可以通過接入地圖軟件SDK的生活服務提供商,收集信息,查看該點是否任然被服務,若該點近3天(時間可修正)沒有被服務的記錄,那么就存在關門可能
以上供應商的1/2兩條判斷數(shù)據(jù),可以與上邊的老板店員數(shù)據(jù)的1/3相結合。
二、歸納升級方案
根據(jù)上述分析,對于單點信息,判斷其是否仍然活躍,歸納總結出如下表格:
判斷的核心方式是:通過數(shù)據(jù)噪點找到可能存在的問題,通過其他數(shù)據(jù)的驗證找到數(shù)據(jù)的真實情況。
每個點的營業(yè)狀態(tài)可以預留三個值,分別為:營業(yè)中,待確認,不營業(yè)。最初獲取點,點信息為營業(yè)中狀態(tài),我們?yōu)辄c信息加入五個維度的考察指標,當這五個維度中,出現(xiàn)判斷不營業(yè)的次數(shù)超過了10次(數(shù)量需要進行統(tǒng)計與測試),可以是一個維度判斷不營業(yè)出現(xiàn)10次,或多個維度判斷不營業(yè)出現(xiàn)10次,那就將該點掛起,變?yōu)榇_認狀態(tài),然后去進一步遍歷該點的5個維度在數(shù)據(jù)出現(xiàn)噪點后的時間內所有的判斷條件,以及監(jiān)控其未來5個維度的發(fā)展情況,更多信息判斷為在營業(yè)或不營業(yè)的,則將點營業(yè)狀態(tài)改變到正確值。
這里邊還可以加入用戶參與,當狀態(tài)值為待確認時,對于路過或以該目的地為起點或終點的用戶進行推送消息,提問反饋,驗證我們的判斷是否正確。其中反饋真實信息的用戶可以得到某種獎勵,當然這是另一個問題,不做討論。
最后,根據(jù)最終情況去完善和修正方案,包括方案中的判斷方式和方案中的判斷內容維度,從而進一步優(yōu)化方案,這個優(yōu)化也需要提一下,除了方案本身的優(yōu)化,機器通過反饋,不斷學習,從而提高機器判斷的正確率。利用數(shù)據(jù),盡量減少人工和降低成本。
以上是我提出的一個解決方案,當然,具體實施時,還需要考慮很多,其中包括5個維度中提到的各種時間范圍值,每個維度的真值和假值等。方案有很多不完善之處,希望地圖界的大佬,尤其在POI項目中的大佬能夠提出優(yōu)化方案,共同探討。
三、文章總結
如今數(shù)據(jù)分析和機器學習是很火熱的領域,近幾年各行各業(yè)都已經采集了大量的數(shù)據(jù),如何利用數(shù)據(jù)提高效率成為了問題的關鍵。
在我以淺顯的眼光來看,當需要解決某個問題時,可以通過一個維度的數(shù)據(jù)解決,然后再通過另外一個維度去驗證,再通過第三個維度去驗證第二個維度,如此下去,做一些灰度模型,最終機器的判斷值或輸出值等于真實值,這就是最簡單卻最有效的一種大數(shù)據(jù)應用。
聲明:文章中提到的所有用戶信息獲取與應用,都會獲得用戶允許。在法律允許的范圍內,本文最終解釋權歸本文作者所有。
文末提出一個簡單的問題,如何判斷搜狗輸入法用戶的男女比例?希望能夠與大家一起探討。
作者:小花,資深增長產品,公眾號:小花摸耳(idhuaandmore)
本文由 @?小花 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載。
題圖來自unsplash,基于CC0協(xié)議
有點意思,考慮跳槽不?來我廠吧…
地圖的核心支撐在于數(shù)據(jù)的豐富度和準確性,利用算法模型對線上數(shù)據(jù)的準確度做判斷是合理的,但是否能大幅度提升驗證的效率還需評估。
在樓主的這個模型里,如果用戶前往一個POI,發(fā)現(xiàn)其已經停業(yè)或搬遷,對于單個用戶來講,體驗傷害已經造成,此時產品的核心應在于及時止損,安撫用戶,回收錯誤信息。在我看來,此時的報錯機制和用戶激勵要遠遠比用戶此時的軌跡信息收集更為重要,目前來看,百度做得并不好。
另一番方面,如何引導B端或者G端在地圖上認領信息,也是很重要的一點,這些應該從產品思路上考慮,而不應該僅僅局限于數(shù)據(jù)和算法。
我的理解,數(shù)據(jù)和算法都是為了產品服務,是解決問題的手段,不是目的,地圖還是要更加關注自身產品業(yè)務線的邏輯,從用戶層面看問題會好一點
您說的沒錯,需要從整體產品線看問題,角度沒問題,可以說您是全局把控,其實他們整個地圖部門就在從全產品角度看問題,發(fā)現(xiàn)并解決問題。只是會落實到每個組,跟我一起探討問題的是該廠的POI組,而且是POI組的其中一道程序的部門,雖然我沒有接觸其他部門,但我相信,他們公司肯定有專門做用戶層面的部門。
我們希望將問題拆分,尋找到每個可以優(yōu)化和解決問題的點,提升產品,這不就是我們一直在追求的極致嗎?謝謝點評,虛心接受啦,看您也關注地圖行業(yè),希望以后可以不吝賜教哦。 ??
思維都挺好的,來高德不?挺對口的,聯(lián)系電話:15801164987