買房助手產品思路:大數據+機器學習=AI置業(yè)顧問
在萬物聯網的互聯網+時代,我們能否用大數據與AI技術,為買房這一需求賦能,讓人們的需求在買房助手的助力下更加便捷,更加智能?筆者的一系列產品構思證明,這個思路或許能得到實現。
年前的時候我得到了一份某一線城市的二手房源信息,包括了超過數萬條房屋數據,而且內容十分完整,于是我就想著能用來做點什么,便萌生了設計一個大數據+機器學習的買房助手的產品構思。
下文并不會涉及太多復雜的技術原理,只是簡述我的產品思路。
一、產品設計
1. 需求分析:為什么買房
一個人為什么要買房,這是一個與當下社會環(huán)境及法律政策、人文環(huán)境、經濟環(huán)境、家庭關系、自身情況混合在一起的復雜需求,有可能是剛需,也有可能是投資,還有可能純粹收迫于他人意愿的,想要把這些需求進行客觀的整理是很困難的事情,因為這個需求的表現本身就可能很不客觀的。
購房的表象原因很可能是以下四個方面:
剛需
購房者或其親屬需要固定住所、入戶、子女上學、舊房屋被拆遷或破舊無法居住等原因,產生的剛性需求,買房可以說是為數不多的解決方案中,社會認同性最高的、也是最容易操作、綜合效果最佳的一個方案。
改善型需求
為了改善居住環(huán)境,尋求更寬敞的空間、電梯,更好的醫(yī)療資源、教育資源、交通措施等,一般在已擁有一套房的基礎上,再次購買的房產,俗稱買“二套房”。
投資
房產的投資方向有很多,對于住宅而言,主要又分兩種:房租收入、轉手收入。
- 房租收入就是依靠房子出租獲得租金的持續(xù)性收入。
- 轉手收入則是在購房一段時間后將房屋再次銷售給其他購房者,以獲得的一次性收入,俗稱“找人接盤”。
投資對房子的地理位置、所屬地區(qū)當前及未來的經濟、治安、交通、教育、醫(yī)療環(huán)境都比較多的考究。
其他
因為房子的價格對于大部分人而言都是非常高昂的,再加上很多地區(qū)存在限購政策,讓“沖動消費”對于普通購房者而言幾乎不可能成為原因。但是不排除依然有此類或其他的購房原因。
刨去現象看本質,在這些表象原因中我們可以抽取出一些可量化的指標:
- 房屋自身:房屋的產權、面積、狀況、是否有小區(qū)、是否有供暖等等
- 政策:是否限購、限售及其他的政策限制如“滿二”、“滿五”、“唯一”,是否可以入戶。
- 教育:是否學位房、學區(qū)房,對應學校的評級如“市一級”、“省一級”
- 交通:是否有地鐵、公交、對于有車一族還有是否有車位
- 其他周邊:周邊是否有大醫(yī)院、景區(qū),醫(yī)院又分三甲、衛(wèi)生院等。景區(qū)也有不同的星級評級
- 地區(qū)經濟:對于改善型和投資購房者而言這點比較重要,他們可能會去關注當地的GDP、未來規(guī)劃,如珠三角、大灣區(qū)等。
- 房屋售價:之所以單獨列出來,而不放在房屋自身的項目中,一是因為房屋的價格其實是“絕大部分場景下”購房者首先要面對的問題,并直接影響他們對其他指標的需求程度;二是房屋的價格/價值是由以上其他指標共同影響“塑造”的;三是有些房源是要求購房者一次性付款的,可能會篩掉大部分客戶。
- 自身情況:自身經濟情況、是否擁有購房資格、貸款資格等。
所以我們要順藤摸瓜,弄清楚購房者或決定購房的主要參與人,在他們內心,到底哪項是決定因素,哪項是次要因素。
2. 需求匹配:到底要什么
完成了需求分析后,我們就可以從新房大數據、二手房大數據中,去尋找那些符合條件的房源:
- 可購房類型:住宅、商住兩用、公寓、小產權(不推薦)
- 可承擔經濟范圍:單價、總價
- 房屋情況:面積、戶型、朝向、電梯、樓齡、樓況、小區(qū)面積、容積率、綠化率
- 配套教育:幼兒園、小學、初中、高中、大學,又可以具體細分學校的等級
- 配套交通:公交、地鐵、車位、高速路、高鐵、鐵路等
- 其他配套:醫(yī)院、公園、景區(qū)
- 周邊經濟環(huán)境:街道環(huán)境內是否有商業(yè)街、大型超市;縣區(qū)定位是否是自貿區(qū)、金融區(qū);城市定位是否是珠三角、大灣區(qū)等。
因為我拿到的是特定城市的數據,加上考慮了更多剛需購房的場景,所以關于景區(qū)、縣區(qū)/城市定位這些更多與改善型、投資購房相關的內容,我后文中不再詳述。
通過讓用戶填寫/輸入上面的條件,就可以搜索出符合他們的需求的房子,并可以通過價格、面積、地鐵、小區(qū)、電梯等進行排序或篩選,然后再一個個實地去看看,找出性價比最高的那家,然后買定離手。
這時候你就會說,這特么不就是房天下、鏈家APP能做的么,跟傳統的有啥不一樣?哪里AI了?……
3. AI建議:找出性價比最高、最可靠的房源
我將所有的房源數據進行整理后,通過不同的數據研究方式,對每個房源信息進行分析。
線性回歸:初步分析
線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,運用十分廣泛。
對所有數據進行線性回歸,可以得到該城市每個區(qū)、每條街道、不同的地鐵線、學區(qū)房/學位房、樓齡、是否有電梯等對房價的影響因子。
有了影響因子,我們就可以反推一個房子的價格構成比例、是否真的值錢等。但是線性分析只作為一個初步分析的手段,優(yōu)勢是運算速度快、數據結果簡單可見,缺點則是判斷房子價值的準確率并不那么高。
通過將線性分析的結果告知用戶,可以幫助用戶對比不同的房源價值構成,以及當前地區(qū)對房價的影響因素,可以作為用戶購房決策輔助工具之一。
聚類:區(qū)域優(yōu)選
將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異?!拔镆灶惥郏艘匀悍帧?,在自然科學和社會科學中,存在著大量的分類問題。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源于分類學,但是聚類不等于分類。聚類與分類的不同在于,聚類所要求劃分的類是未知的。
通過對房源地理位置進行聚類,可以將整個城市劃分出多個生活片區(qū)。我們可以簡單推測/認為,如果一個房源在這些片區(qū)中心區(qū)域,將能獲得更好的生活措施保障,如果不在這些片區(qū)中、零散分布的房源所配套的生活措施將較差。
某市二手房源熱力圖
至于為什么要聚類?
這個問題就如同人類文明為什么總是起源于大江河畔,工業(yè)文明為什么總產生在礦產豐富、交通便利的地方一樣。
城市的發(fā)展建設、人類的生活都遵循著一定的規(guī)律,如果一個地方有遍歷的地鐵,有好的學校,反過來試問,那個地方要是沒大片住宅沒人口,你會覺得符合常理么?
雖說是常理,就像區(qū)分一個人的性別一樣,只有DNA檢測才是最科學的手段,其他所有的表征都不能作為最終判斷依據。
支持向量機:性價比分析
支持向量機(support vector machines,SVM)是一種二分類模型,它的目的是尋找一個超平面來對樣本進行分割,分割的原則是間隔最大化,最終轉化為一個凸二次規(guī)劃問題來求解。
支持向量機由于使用了超平面,所以能處理更多線性回歸不能很好解決的復雜模型。
將所有房源數據,以除價格以外的各項指標作為訓練數據,將價格作為結果數據,然后進行支持向量機學習。然后使用訓練好的模型,對所有房源通過除價格以外的各項指標進行測試,預測該房源預期的價格。
我們將預測結果作為該房源的預期價格,將原價作為該房源的實際價格。
房源值率=預期價格/實際價格
通過計算房源的值率,就可以知道一個房子是否值這個錢,將步驟2通過條件搜索出來的房源,進行是否優(yōu)秀區(qū)域、是否性價比最高兩項指標綜合排序,將“真 · 性價比”最高的房源推薦給購房人,這樣的話可以幫購房人省去非常多的時間挨個瀏覽搜索結果,進行對比,然后確認優(yōu)先實地去看哪些房子。
我使用某地圖數據可視化做的值率分析
房源訂閱:AI好房推薦
房子并不是短時間內看幾次就能決定購買的,有可能當前所有房源最終購房者都不滿意。但是我們知道了該用戶需要的房源類型后,如果我的房源數據庫有新的房源進來,我就會用訓練好的聚類模型、支持向量機模型對該房源進行“預測”,看看新房源是否符合設定的推薦閾值(如值率、離最近的聚類中心距離),如果是,則推送給購房人,反之則不推薦。
另外通過用戶的瀏覽記錄、駐留時間、是否有預約看房,再結合“隨機森林”或其他機器學習方法,從所有房源中找出與之相似的房源推薦給用戶。
決策樹
在機器學習中,隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機森林的算法。
假設某購房者看了200套房源的頁面,但是只預測看了其中20套房源,我們就可以將這些瀏覽過的房源標記為兩類:會預約、不會預約,然后進行隨機森林訓練,再接著將數據庫中新加入或者瀏覽次數大的、有條件的話也可以將所有數據都進行一遍預測,看看是能得到會預約的結果,如果會則推薦給該用戶,則有更大的成交可能性。當購房者看了更多房源后,通過不斷訓練,這個預測模型將越來越準確。
4. AI分析:用戶畫像
通過以上的機器學習方法,對房源進行分析,找出性價比高的,又或者是類似的房源。我們可以思考一下,是否能用同樣的技術,然后結合每個用戶看的了不同的房源,然后對用戶進行歸類。
如果其中某些用戶最終在我的平臺上完成的購房,然后我就可以根據這些用戶的看房特征(如瀏覽時間、瀏覽時長、觀看房源的特征、用戶其他的注冊信息、預約頻率、預約時間等)進行機器學習,然后對系統中其他的用戶進行分析,預測這些用戶的潛在購房可能,并進行更有針對性的營銷。
同時我們也可以按照用戶看房內容,對用戶進行偏好劃分,如看了很久不買的,總看某一類房源的、或者有其他潛在共同特征的,然后聚類區(qū)分。最終讓運營/中介可以對用戶按標簽進行“范圍攻擊”,極大的降低了工作成本。
二、總結
隨著大數據及機器學習的不斷發(fā)展,我相信很快就會有類似的工具面世,由于AI將帶來更精準、高效的房屋推薦策略,現在由各家不同的中介憑直覺帶著你一套套房子的瞎逛的年代可能一去不復返。
而且現在越來越多房子有VR全景的信息,未來通過機器視覺對房間內部采光、房型設計、房屋新舊狀況分析也將變得可能,說不定到時候還能將你對房屋的風格、顏色喜好輸入進去,就能推薦適合你的房屋信息。
本文由 @iCheer 原創(chuàng)發(fā)布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
你是你媽被你爺爺強奸生的雜種嗎
嗯,有點意思。