婷婷丁香六月激情综合啪,亚洲精品456在线播放,午夜高清毛片影院成人看

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

數(shù)據(jù)分析——因子分析怎么用？

LLL

2021-05-12

4 評論 17921 瀏覽 44 收藏

12 分鐘

編輯導(dǎo)語：作為多元統(tǒng)計分析里的降維方法之一，因子分析可以應(yīng)用于多個場景、如調(diào)研、數(shù)據(jù)建模等場景之中。本篇文章里，作者就對因子分析做了詳細(xì)介紹，對其原理邏輯、用途及代碼實現(xiàn)過程進(jìn)行了相關(guān)展示，讓我們來看一下。

數(shù)據(jù)分析中，主成分分析（PCA）是被大家熟知的數(shù)據(jù)降維方法。而因子分析和主成分分析是非常相似的兩種方法，他們都屬于多元統(tǒng)計分析里的降維方法。但因子分析最大的優(yōu)點就是：對新的因子能夠進(jìn)行命名和解釋，使因子具有可解釋性。

因此，因子分析可以作為「需要滿足可解釋性數(shù)據(jù)建?！沟那捌跀?shù)據(jù)降維的方法。下文會介紹因子分析的原理邏輯、用途以及Python代碼的實現(xiàn)過程。

一、什么是因子分析？

因子分析的起源是這樣的，1904年英國的一個心理學(xué)家發(fā)現(xiàn)學(xué)生的英語、法語和古典語成績非常有相關(guān)性，他認(rèn)為這三門課程背后有一個共同的因素驅(qū)動，最后將這個因素定義為“語言能力”。基于這個想法，發(fā)現(xiàn)很多相關(guān)性很高的因素背后有共同的因子驅(qū)動，從而定義了因子分析。

因子分析在經(jīng)濟(jì)學(xué)、心理學(xué)、語言學(xué)和社會學(xué)等領(lǐng)域經(jīng)常被用到，一般會探索出背后的影響因素如：語言能力、智力、理解力等。這些因素都是無法直接計算，而是基于背后的調(diào)研數(shù)據(jù)所推算出的公共因子。

因此概括下，因子分析就是將存在某些相關(guān)性的變量提煉為較少的幾個因子，用這幾個因子去表示原本的變量，也可以根據(jù)因子對變量進(jìn)行分類。

舉個例子。學(xué)生有語文、英語、歷史、數(shù)學(xué)、物理、化學(xué)六門成績，通過因子分析會發(fā)現(xiàn)這六門課由兩個公共因子驅(qū)動，前三門是由“文科”因子，后三門是“理科”因子；從而可以計算每個學(xué)生的文科得分和理科得分來評估他在兩個方面的表現(xiàn)。

二、因子分析可以解決什么問題？

1. 在多變量場景下，挖掘背后影響因子

比如在企業(yè)和品牌調(diào)研中，消費者會調(diào)查很多問題來評估企業(yè)品牌。對這些問題通過因子分析可以刻畫出背后少量的潛在影響因素，比如服務(wù)質(zhì)量、商品質(zhì)量等等。

2. 用于數(shù)學(xué)建模前的降維

因子分析和主成分分析都可用于降維。但因子分析的優(yōu)點是，因子作為新的解釋變量去建模，有更好的解釋性。

因此對于有些需要業(yè)務(wù)解釋的數(shù)據(jù)建模，可以在建模前通過因子分析提取關(guān)鍵因子，再用因子得分為解釋變量，通過回歸或者決策樹等分類模型去建模。

三、算法實現(xiàn)步驟

首先需要注意的是，和主成分分析一樣，兩種方法的目的都是降維，所以兩種方法的前提假設(shè)都是：特征之間不是完全互相交互。

因子分析是尋找不線性相關(guān)的“變量”的線性組合來表示原始變量，這些“變量”稱為因子，如下圖中的F就是因子，X是原始變量，eps是原始變量不可被公共因子表示的部分。

數(shù)據(jù)分析—因子分析怎么用？

以上的公式還需要滿足：

要求因子的數(shù)據(jù)小于原始變量的數(shù)量，即m≤p；
因子F之間是相互獨立且方差為1；
因子F和eps之間的相關(guān)性為0，eps之間相關(guān)性為0。

因此，因子分析的過程就是實現(xiàn)以下幾個目的的過程：

求解方程中的因子F的系數(shù)；
給予因子F實際的解釋；
展示原始特征和公共因子之間的關(guān)系，從而實現(xiàn)降維和特征分類等目的。

求解方程的過程，就是分析變量的相關(guān)系數(shù)矩陣，從而找到少數(shù)幾個隨機(jī)變量去描述所有變量。又因為求解的不唯一性，最后通常會對因子的載荷矩陣做一次正交旋轉(zhuǎn)，目的是為了方便理解每個因子的意義。

匯總一下：對于因子分析的實操可以提煉為以下幾個步驟。

1）充分性檢驗

目的：檢驗變量之間是否存在相關(guān)性，從而判斷是否適合做因子分析；
方法：抽樣適合性檢驗（KMO檢驗）或者巴特利特檢驗（Bartlett’s Test）。

數(shù)據(jù)分析—因子分析怎么用？

2）選擇因子個數(shù)

目的：通過數(shù)據(jù)定義最合適的潛在公共因子個數(shù)，這個決定后面的因子分析效果；
方法：Kaiser”s準(zhǔn)則或者累積貢獻(xiàn)率原則。

數(shù)據(jù)分析—因子分析怎么用？

3）提取公共因子并做因子旋轉(zhuǎn)

提取公共因子就是上面提到的求解函數(shù)的過程，一般求解方法有：主成分法、最大似然法、殘差最小法等等。

因子旋轉(zhuǎn)的原因是提取公共因子的解有很多，而因子旋轉(zhuǎn)后因子載荷矩陣將得到重新分配，可以使得旋轉(zhuǎn)后的因子更容易解釋。常用的方法是方差最大法。

4）對因子做解釋和命名

目的：解釋和命名其實是對潛在因子理解的過程；這一步非常關(guān)鍵，需要非常了解業(yè)務(wù)才可。這也是我們使用因子分析的主要原因。
方法：根據(jù)因子載荷矩陣發(fā)現(xiàn)因子的特點。

5）計算因子得分

對每一樣本數(shù)據(jù)，得到它們在不同因子上的具體數(shù)據(jù)值，這些數(shù)值就是因子得分。

四、案例講解

數(shù)據(jù)集介紹：美國洛杉磯2000年街區(qū)普查數(shù)據(jù)，共有110個街區(qū)，15個變量，變量具體情況見下表。

想分析影響不同街區(qū)下人口分布的潛在因子。

數(shù)據(jù)分析—因子分析怎么用？

1. 第一步：數(shù)據(jù)預(yù)處理和分析

新增“人口密度”特征，刪除特征人口量、面積、經(jīng)度和維度。

import pandas as pd

import numpy as np

LA_data = pd.read_csv(‘LA.Neighborhoods.csv’)

#新增人口密度，去掉人口量、面積、經(jīng)度和維度

LA_data[‘density’] = LA_data[‘Population’]/LA_data[‘Area’]

LA_data_final = LA_data.drop([‘Population’,’Area’,’Longitude’,’Latitude’],axis=1)

LA_data_final_feat = LA_data_final.drop([‘LA_Nbhd’],axis=1)

數(shù)據(jù)分析—因子分析怎么用？

2. 第二步：因子分析——充分性檢驗

巴特利特P值小于0.01，KMO值大于0.6；說明此數(shù)據(jù)適合做因子分析。

數(shù)據(jù)分析—因子分析怎么用？

3. 第三步：因子個數(shù)確定

特征值大于1的因子數(shù)有2個，且兩個因子的累計方差有68%；因此確定因子個數(shù)為2個。

from factor_analyzer import FactorAnalyzer

fa = FactorAnalyzer(LA_data_final_feat.shape[1]+1, rotation=None)

fa.fit(LA_data_final_feat)

ev, v = fa.get_eigenvalues() # 計算特征值和特征向量

var=fa.get_factor_variance()#給出方差貢獻(xiàn)率

數(shù)據(jù)分析—因子分析怎么用？

4. 第四步：做因子分析

調(diào)用因子分析函數(shù)，并得到因子載荷矩陣；從載荷矩陣可以看到，第一個因子和收入、有房家庭比例、復(fù)員軍人比例及歐裔比例成正相關(guān)；第二個因子和非裔比例成正相關(guān)，反而和收入及有房比例等成負(fù)相關(guān)。

fa = FactorAnalyzer(2, rotation=”varimax”)fa.fit(LA_data_final_feat)# 輸出載荷矩陣df_loading=pd.DataFrame(fa.loadings_,index=LA_data_final_feat.columns.tolist())df_loading

數(shù)據(jù)分析—因子分析怎么用？