炼数成金 门户 图书 查看内容

《SPSS宝典》第15章 聚类分析

2013-9-24 14:39| 发布者: 天空之城| 查看: 66958| 评论: 1|原作者: 杨丹|来自: 电子工业出版社

摘要: 聚类分析又称群分析,是分类学的一种基本方法。所谓“类”,通俗地讲,即是由具有相似性的元素构成的集合。聚类分析也是多元统计学中应用极为广泛的一种重要方法。

测试 统计学 SPSS 方法

  15   聚类分析

聚类分析又称群分析,是分类学的一种基本方法。所谓,通俗地讲,即是由具有相似性的元素构成的集合。聚类分析也是多元统计学中应用极为广泛的一种重要方法。

分类问题在经济、医学以及科学研究中十分常见。例如,超市商品的种类繁多,需要根据商品的用途、价格档次以及产地等多方面的变量因素分成不同的组别,仅仅利用单变量因素分布,不足以全面、综合的描述商品的类别。多种因素同时考虑,对不同品种之间的关系给出定量化的描述,然后制定分组规则,按照实际的需要分类。这时可以利用聚类分析的方法。

类似的例子很多,有经济的、政治的,还有更多在实际上活中提出的分类问题。比如,国家的分类问题。冷战时期,可以按国家政体形式和经济发展水平,分为第一世界国家、第二世界国家和第三世界国家;而在当今世界,国际形势早已不是几十年前的状态,国与国之间关系错综复杂,将国家分类需要考虑的因素非常多,诸如,国家政体模式、经济发展水平与模式、军事力量对比,民族关系等。国家分类必须将这些重要因素综合考虑,可以从每一种因素的数据入手,充分利用数据,客观描述国与国之间的关系,将诸多特征相似的国家分在一组,不相似的国家分在另外的组中。这也是一个典型的聚类分析的问题。

从上面例子中可知,聚类分析就是对研究样品或指标进行分类的一种多元统计方法,这种方法正处于发展阶段,理论上仍很不完善,但由于它能够解决许多实际问题,因此,在很多具体问题以及应用建模中,这个方法得到了人们的重视,特别是和其他统计方法结合起来使用,效果更好。

应用中,聚类分析仍是一种对数据的解释方法,要得到一个客观、综合的聚类分析结果,必须经过多次不同方法的实验,同时辅助其他的方法。例如,统计图形、机理分析等。聚类分析过程不仅是一门分类的科学方法,更像是一门分类的艺术。

15.1聚类分析的基本方法

聚类分析是通过将一批数据的个案或者变量的诸多特征,按照关系的远近程度进行分类。关系远近程度的定量描述方式不一样,因此利用的聚类方法也不一样,可以产生有差别的聚类结果。

本节利用一个对5名学生的能力调查数据,简述聚类分析的基本方法,研究聚类分析的基本概念和分类方法。

15.1.1实例:不同学科的能力测试调查

15.1描述的是对02级本科生中5名不同学科的学生能力测试结果。

15.1  5名不同学科的学生能力测试结果

个案

学科

抽象思维

形象思维

创新能力

case 1

1

88.00

78.00

3

case 2

1

94.00

63.00

2

case 3

3

64.00

89.00

1

case 4

3

58.00

91.00

1

case 5

2

83.00

88.00

2

 

考虑如下几个变量因素。

学科:定序型变量。1代表理科生,2代表工科生,3代表文科生。

 

u  抽象思维:定距型变量。表示进行抽象思维能力测试的得分。

u  形象思维:定距型变量。表示进行形象思维能力测试的得分。

u  创新能力:定序型变量。表示创新能力的综合得分,1表示一般,2表示好,3表示很好。

 

若将5名学生分成三类,比较明显的是case 1case 2属于第一类,case 3case 4属于第二类,case 5单独为第三类,每一子类中的个体特征显然要比其他子类的特征具有更多的相似性。例如case 1case 2的学科相同,抽象思维能力的测试得分都偏高,形象思维能力测试分数中等或偏低,case 5没有分到第一类或者第二类,是因为要将5名学生分成两类的话,case 1case 2仍在同一类,case 3case 4也在另外的一类,但对于case 5来讲,分类似乎不是很明显;考虑变量特征,从其抽象能力测试得分来看,应该和第一类接近,但没有第一类的高;从形象思维能力测试来看,和第二类接近,但也没有第二类高,学科与两类也不同。

从这个问题中可以看出,要进行有效的分类,首先应该对个案与个案之间关系的远近程度给予定量描述,同时,还应该考虑其聚类方法及其类型等。

15.1.2距离描述

SPSS中,我们利用两者之间距离描述的远近程度,具体细分,还可考虑类与类之间的距离,以及个案与类之间的距离等,即考虑如下距离概念及其计算公式。

 

1)定距型变量的距离。

2)定类型变量的距离。

3)变量和类之间的距离。

15.1.3聚类类型

按分类对象的不同,可分为以下两种类型。

1)个案聚类

个案聚类也称Q型聚类,是根据被观测个案的各种特征的各变量值进行分类。例如,上例中考虑的对学生的分类就是个案聚类。

2)变量聚类

变量聚类在统计学中又称为R型聚类。描述同一问题的特征变量有很多,但在实际问题中,我们不可能将所有的变量进行考虑,应根据对问题的关注点的不同找出具有代表性,同时又是独立的变量进行研究。例如,在回归分析中,变量之间如果产生共线性可以导致偏回归系数不能真实地反映自变量对因变量的影响等。变量分类就是将具有共同特性的变量分为一类。

15.1.4聚类方法

根据聚类分析过程的不同,聚类分析的方法又可以分为以下3种。

 

1)快速聚类。

2)分层聚类。

3)二阶段聚类。

 

以上提到的三类问题是本章讨论的重点。

8

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (8 人)

发表评论

最新评论

引用 silverqinne 2014-10-28 21:47
Mark

查看全部评论(1)

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

     

    GMT+8, 2017-4-27 22:41 , Processed in 0.154473 second(s), 26 queries .