大數據識別電信罪案中的統計學原理

0 評論 8390 瀏覽 32 收藏 9 分鐘

本文將淺談統計學原理在數據信息提取、數據處理和現實應用場景中的研究意義。

通常而言,談及統計學,人們認為就是將數據通過簡單的樣本計算和傳統的數學模型將其中有用的信息提取出來。然而,放到現代的觀念來說,這些認知偏頗狹隘了。

當今,大量的動態數組,千兆、億兆的數據,在商業、制造業、環境科學、航天航空

數據網絡等各個領域屢見不鮮。傳統的統計學場景和現代統計學已經相去甚遠。

更進一步,隨著數據量的增加,計算機科學成為了比傳統統計學更為適合處理大數據計算的方式,數據可視化的應用挑戰也成為計算機科學發展的重要方面。

這篇文章,將淺談統計學原理在數據信息提取、數據處理和現實應用場景中的研究意義。

1. 信息新定義

信息如何從數據中提取,取決于不同目標主體。有時,信息就是總結一下當前數據,不針對未來決策、過程、實驗做推斷。

但即使是總結也不容易,如果數據量龐大則需要使用特殊函數來處理。更為隱晦的是,目標可能是推斷未知參數或關聯關系。

例如,目標可能是理解一項未知或無法獲取的事物,例如性能輸出量,這類數據沒有誤差變量則無法衡量,

因此,難點就是從實驗數據中提取關聯行和參數來解釋這類數據?;蛘?,目標或許是預測當前抵押貸款未來可能會有拖欠情況的部分人員。

預測未來價值,而不是推斷隱藏的關聯關系和參數。

舉例來說:某一項貸款已經下放,那么目標函數可能需要確定某部分數據應用用來預測還款是否會有拖欠,所以目前的貸款數據只是可用數據的訓練集。

推斷數據和預測數據都需要數據分析,而不僅僅是數據歸集。

2. 基礎統計概念

基礎統計學模型很簡單:

數據=主體數據+噪聲數據

主體數據代表主要的數據形態,噪聲數據表示圍繞主要模型的變量,兩者都具有高度復雜性。主體可能是參數類型的,這組參數可能是線性數據、非線性數據、復數、積性函數等(例如:系數)。

另外,主體數據也可以是非參數類型的,例如:階梯函數、賦值函數或一連串解釋型變量。噪聲數據表示變量數據,會影響預測和評估的可靠程度。噪聲數據是相對獨立、標準、相關、持續期間偏差抽樣,用于計算非隨機樣本或結構化數據。例如:如果噪聲數據沒有附加影響數據源,那更合適的模型就是

Data~Fθ

Mean(data)= g(θ)

Fθ是圍繞在決策模型g(θ)周邊的分布函數,解釋數據的冗余變量。Fθ也可以是著名的分布函數,例如伯努利分布,邏輯回歸。其包括了計算非冗余樣本,通過解析性變量和關聯關系來預測持續期間樣本變差等情況。主要參數θ有賴于解釋型變量和預測型變量。數據歸集的過程越復雜則,同濟模型的復雜程度越高。

統計學理念認為,噪聲數據建模與主要數據建模同樣重要。我們可以從噪聲數據中獲取可能偏差的預測情況、通過噪聲屬于的統計,我們可以知道這類屬于可用于目標推斷或問題預測。

3. 反詐騙行為統計模型

當今,各種各樣的電信詐騙層出不窮,信用卡被盜都能引發周邊一系列的電話欺詐。電信欺詐案中,作案人可以克隆各種電話號碼。通過有線網絡,黑客可以攻入大學的電信網絡,把所有學生的電話信息都盜取后行騙。訂閱欺詐案中,顧客被騙瀏覽購物信息竊取支付密碼。

我們的目標在于盡快地獲取每一次通話記錄,并且記錄詐騙電話的活躍和終止階段的信息,更新采集樣本。如果通過采集樣本,我們可以精準預測出下一次的合規來電,通過已經捕獲的來電號碼對比預測出來的數據校驗精準性。我們將采集對比的合規電話標記為0,而非0的預測來電則有可能為詐騙電話。

通過數據預處理的方法,我們可以定義出樣本為0的數據為主體數據。而非0數據為噪聲數據。通過邏輯回歸等分布函數等噪聲數據的處理,可以預測出在一周或者一日之內非0數據的可能來電情況。

但是實際情況遠比樣本計算復雜得多。我們很難通過簡單的狀態判斷來決策主體變量和非主體變量的預測情況一定是符合現實場景的。

從統計學角度來說,我們將一通電話定義為:一組隨機向量X=(X1,…,XK)

X1表示通話持續時長、X2表示通話頻次(每周一天,每天一小時)X3表示通話率,X4表示號碼歸屬地(例如:國家、地區、城市、行政區層級劃分)。

當所有可以采集的通話歷史信息收集到后。一個合法的呼叫者i在通訊數據上會出現一個多元分布視圖,y軸為Ci,n ,x軸為Xi,n.詐騙分子有個a數據與多元分布矩陣F完全不同。

4. 結語

計算是處理海量數據分析的關鍵,統計學還有很多計算處理海量數據的方法要向計算機科學學習。

與此同時,統計學也將新的要求提出給了計算機學科。例如計算機的數據挖掘需要提高。

統計學原理是推動數據挖掘提取分析的關鍵原則。但是這不代表統計學具有數據探索意義。

數據分塊,尤其是當數據量巨大的時候,如何更好地利用數據,使數據更為有意義有作用是需要計算機科學采用更為有力的技術和模型構建方法的。

大量數據產生的更多問題遠遠不止分析能夠解決,需要統計學和計算機科學雙方一同發展,兩者結合應用來處理。傳統統計學與數學緊密相連,數學對于分析海量數據有重要作用。概率學則在每一步統計分析建模中起到關鍵作用。

總之,我們還有很多需要進步和研究的空間,更高效合理的結合統計學與計算機科學兩者,將數據智能的應用場景結合到現實生活。

 

本文由 @手心的太陽 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自 Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!