立即注册 登录
炼数成金 返回首页

szy2010214517的个人空间 http://www.dataguru.cn/?248794 [收藏] [复制] [分享] [RSS]

日志

Lesson3、主成分和因子分析

已有 3304 次阅读2017-6-3 11:20 |个人分类:机器学习| 主成分和因子分析

当我们的数据出现多维情况,难点存在多重线性问题,如何在多维的数据中知道那些维度数据是影响结果的呢,我们除了岭回归或者lasso(选取变量)还可以通过如下方式解决该问题;

 

主成分分析:

通过原有变量,来进行线性组合,得到新的变量, 我们通新的变量进行方差计算,通过方差我们抛弃某些变量组合。

1、根据方差选择变量:

示例:比如我们有如下数据集称为样本集,因变量Y 和多个变量X

Y

X1

X2

X3

X4

4

3

0

100

Xx

7

6

0

100

Xx

1

1

0

100

Xx

8

7

0

100

Xx

……

 

我们可以把上面样本可以采用如下公式表示:

Y = a*X1 + b*X2 + c*X3 + d*X4 + e

 

其中我们可以观察到X2 X3 值为0 或者 100 其中X2 可以在我们公式中抛弃 X3呢其实也可以被抛弃,虽然看起比较大,但是X3*c 还是一个常数,被最后e这个截距项融合了。

结论:所以我们可以通过查看数据是否变化,如果不变化那么这个变量我们可以抛弃。如何使用统计指标来确认这个变量是否能被抛弃呢?  答案---  (方差)

 

2、线性组合

Y

X1

X2

5

5

-5

8

8

-8

6

6

-6

 

比如我们有如上因变量Y和两个因变量X1 X2 我们求对应变量X1X2样本数据的方差得到相同的值,我们无法排除变量。这个时候我们可以通过线性组合方式排除。

我们在上面样本中加入两个变量 Z1Z2

Z1 = X1 – X2

Z2 = X1 + X2

10

0

16

0

12

0

 

此时就可以排除Z2变量,我们选择Z1变量,因为他的方差较大,不稳定。

通过新的变量Z1Z2,采取数据验证,筛选变量。

 

因子分析:

降维的一种方法,是主成分分析的推广和发展。

是为了减少分析变量个数;通过对变量间相关关系的探测,将原始变量分组,即相关性高的变量分为一组,用共性因子来代替变量;使问题背后的业务因素的意义更加清晰呈现;

 

因子和主成分分析区别: 侧重点不同, 主成分分析“变异量”,数据的分散程度,数据再组成变量后,以最大分散性组合起来。但是很难从业务上解释线性组合的模型是什么意思。

因子分析侧重,是变量之间的相关性,在一堆变量中,哪些相关性比较强的变量可以分为一组,然后用一个变量代表相关性比较强的一组变量。因子更加容易根据业务来解释。比如说高中时候各科成绩有:语文、数学、英语、化学、物理、体育 我们大致可以根据相关性分为两组,两个因子,即一组是文科,一组是理科。

 

 

 

 


路过

鸡蛋

鲜花

握手

雷人

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

 

GMT+8, 2019-6-20 23:07 , Processed in 0.078002 second(s), 20 queries .