數據缺少怎么辦?四個小方法與你分享
編輯導讀:做數據類的項目有一個逃不開的問題:沒有數據怎么辦?巧婦難為無米之炊,沒有數據,可以造、可以找、可以搜集。本文作者分享了四個小技巧,希望對你有幫助,一起來看看吧。
做數據類的項目,解決業務問題,以及深入研究某項數據應用的過程中,我們通常遇到的最大的問題就是沒有數據,沒有數據,沒有數據。
特別是在數據應用方面,不僅是一個沒有數據成了我們的難點,數據量少也是難點之一。這個問題一直在困擾著我,甚至因為這個問題,我還經常被領導吐槽什么也做不出來,我有苦說不出,左右為難,想起來這段日子真的是苦不堪言,巧婦難為無米之炊??!
于是我想了很多折中的方案,下面是我解決這些問題的小方法,分享給你。
一、造數據,先有再優
如果說我們有時候會遇到某個業務剛剛搭建,還未來得及搜集較多的數據,或者是只有極少的數據,更有甚者一點數據都沒有,這個方法也可以先用起來,那就是先根據業務邏輯造仿真數據實施。
第一步,拿到業務數據庫的表結構。表結構是一張數據表的基礎,可以理解為在一張Excel表格里表格的標題。表結構提供了業務內容的字段、數據類型、數據格式,根據表結構造出來的數據才更加符合業務邏輯。如果業務有多張表,那么還需要拿到表的關聯關系,也就是ER圖。
退一萬步講,如果我們連表結構都拿不到的話,那就盡力拿到建表的SQL腳本,然后根據SQL腳本自造表結構,這樣做就是造出來的數據精準度又會降低一個檔次。無論如何先行動起來,才知道會遇到什么問題。
第二步,開始造數據。現在市面上存在很多造數據的工具,產品經理協調好技術小伙伴造數據需要的東西之后,就可以交給他們開始造數據了。有時候造出來的數據會存在偏差比較大,然后再手動調整造的數據即可。
利用這個方法先做出符合業務需要的數據,拿著這些數據試試能否解決問題,如果說相差比較大,那就繼續優化造出來的數據,直至根據經驗和試驗對比預估誤差值減少。先有再優!
二、求助內部團隊,幫忙干點小活
如果說我們造的仿真數據難以令領導信服,那么就動手造一些相當真實的業務數據吧。
拿我做過的一個案例舉例。
我們想要做景區客流量監測的應用,我去找了很多景區客流量的圖片,然后一個個打點人頭像,給算法團隊做數據集。但是僅靠我一個人,要是做出足夠算法團隊使用的數據量,那估計要累到吐血了。
熟悉內幕的小伙伴可能都知道,類似這樣的工作是有專門的數據供應公司把這部分工作外包出去,或者是經常發布一些兼職找人干,成熟的數據標注人員一天可以看超過10 000張圖片,所以如果有50個人參與到標注中,兩天就可以標注超過百萬的圖片。
But,尷尬的是我們也沒有錢去找那么多外包小伙伴來干。于是我就發動了我們團隊的UI、技術、算法工程師一起完成這個工作,雖然大家不像成熟的標注員那樣一天一萬張圖片,但是標注出來的數據集也暫時足夠使用了。當然,作為產品經理也不能讓人家白干活,我也拿出了產品經理的利器:請大家喝奶茶!??!
三、利用”搜商“,借力外部數據
”搜商“這個詞,不知道大家都聽說沒有。我第一次聽到這個詞的時候,頓時覺得除了情商、智商,搜商對一個產品經理來說也很重要。現在是信息爆炸的時代,想要什么信息都能找到。
我們能搞到數據的方法還有很多,隨便百度搜一下會發現有各種各樣類型的數據共享網站。
這里給大家三種類型的數據共享平臺!
1. 免費的科研數據共享平臺
1)CCF科研數據庫
CCF科研數據庫主要就是把世界各地其他計算機方向研究團隊免費提供的數據收集起來,把數據說明簡單翻譯一下,再免費提供給中國學者。任何一個學者個人,都不太可能知道那么多的數據來源,更不可能有精力把這些數據分門別類整理得非常規范,使得查找和下載非常快捷高效。
所以CCF做了大多數人不愿或不能做的苦活累活,通過服務需要數據的用戶收取會員服務費。
2)國資平臺-國信優易
國信優易數據有限公司是由國家信息中心發起的混合所有制公司,主要是想把國家擁有的數據能夠用起來,以數據資源和技術創新為驅動力,助力國家級大數據創新創業的發展。
3)數據堂
數據堂其實之前是CCF的數據供應商,后來成立成為一家專注互聯網綜合數據服務的公司。對它剛興趣的小伙伴可以去了解一下。
2. 政府數據開放平臺
如果說CCF科研數據庫搜集的是世界各地的數據,可能很多數據不符合中國市場環境,也有可能存在很多假數據。那么政府開放的數據,可信度以及可使用性就比較大了。
現階段各地政務數字化的建設如火如荼,沉淀了不少數據,都是寶貝疙瘩,政府也想這堆寶貝能夠發揮作用。
已經成立的有各種各樣的交易所。包括:貴陽大數據交易所、上海數據交易中心、浙江大數據交易中心、華中大數據交易平臺……
類似于這樣的比較成熟的政府數據開放平臺還有很多,以筆者接觸的項目來看,各個地方都在加緊建設這樣的平臺。如果去百度搜索的話,會有一大堆。
3. 全國可流通數據目錄平臺
如果說政府開放的數據也不夠用,數據類型都太偏向社會化了,需要一些商業化的數據。也不差錢,那么有一種叫做全國可流通數據目錄平臺的產品可以解決這個問題。
這樣的一個平臺就類似于我們買衣服一樣,把數據作為一個商品售賣。企業或個人可以把自己擁有的可開放的數據放到這個平臺售賣,也可以在這個平臺購買自己需要的數據,前提是不能違法。
這樣的平臺有:京東萬象、數據星河、數據寶、阿里云數據市場、百度APIStore、數據淘、大海洋數據服務平臺……
更多的平臺,可以百度一下,有心,總會找到!
四、巧妙的數據收集
著名的紅牛企業之前因為一句廣告語“紅牛給你一雙翅膀”而被起訴存在欺騙行為,喝了之后并沒有長出一雙翅膀,要求賠償。最終紅牛企業和消費者達成和解協議,同意賠償。
協議內容是同意向2002年1月1日到2014年10月3日期間在美國購買紅牛飲料的所有人支付賠償,不需要提供發票,只需要下載申請表填寫信息即可得到賠償,而賠償金額是總共1300萬,每個人能得到的賠償金是總金額除以人數。這就類似于我們玩的支付寶集五福,淘寶雙十一瓜分20億紅包活動,可想而知每個人也分不了多少錢。
當時美國人聽說這個協議之后,蜂擁而至,5天內得到400多萬申請表,留下了用戶的姓名、性別、銀行卡號、年齡、郵箱等數據。
就這樣,紅牛企業僅用3美元就巧妙的得到了海量的消費者信息,而且絕對真實。
雖然我沒有用過這個方法,但是紅牛搜集數據的思路還是很值得我們借鑒的!
以上就是我總結的解決沒有數據問題的小方法,可以造、可以找、可以搜集,總之一句俗話:活人還能被尿憋死嗎!希望對你有用!
本文由 @金豌豆?原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Pexels,基于 CC0 協議
確實是,很多時候客戶有想法,在系統還沒接入,數倉還沒影兒的時候就想看BI Demo。這時候只能基于經驗手動弄些數據,什么111,222,亂七八糟的假數據看起來就美觀度不夠了。所以造數據,假數據有時候也是好的工作技巧。
很實用的文章,收藏了,之前經常因為查不到相關數據抓耳撓腮,我一定好好提升搜商
謝謝
作者總結的解決沒有數據問題的四個小方法,感覺很實用,值得借鑒。
仔細閱讀了文章,感覺收獲很多,從中學習到了一些方法,感謝作者的分享。
做數據類項目經常會面臨找不到數據的情況,這篇文章太實用了,收藏收藏。