SPSS聚类分析(2):系统聚类



具体答疑展示请点击查看:论文统计指导服务,真免费,永久免费,超靠谱,快来加入吧
概述:
   聚类分析是一种基于数据自身信息对数据进行分类的一种数据统计方法,利用距离的远近将数据分为若干类别,以使得类别内数据的差异尽可能小,类别间差异尽可能大,达到分类的目的,依此将研究事物划分为不同的类别。在研究中,人们倾向于把事物按照其属性和特征分为若干类别,以便于研究和认识。其中经验来分类是比较主观,同时对信息的利用不足,同时也不准确,为了解决这个问题,需要用到聚类分析。
   聚类分析包括K-均值聚类、系统聚类、二阶聚类.前面已经讲解过K-均值聚类,接下来将分别讲解系统聚类和二阶聚类。
   系统聚类又叫做层次聚类和谱系分析,通过度量数据之间的距离,将数据分类。可以对变量或者样本进行聚类,但不能同时处理两种变量(要么全都是分类,要么都是定量)。系统聚类不需要预先给定k值。但是由于它需要反复计算距离,当样本量太大或是变量太多时,采用系统聚类的运算速度较慢。
   SPSS中的系统聚类分类两种,一种是针对变量的R型聚类,另一种是针对个案的Q型聚类。R型聚类就是将多个类型相同的变量聚为一类,Q型聚类就是对样本进行聚类。假设数据集中的行是样本,列是变量。R型聚类就是对列进行聚类,Q就是对行聚类
   系统聚类可分为合并法和分解法两大类,SPSS中使用的是合并法,步骤如下:
(1)首先将各聚类单位各自作为一类,这时共有n类,按照所定义的距离计算各数据点之间的距离,形成一个距离矩阵。
(2)将距离最近的两个单位合并为一个类别,形成n-1个类别,计算新产生的类别与其他各类别之间的距离或者相似度,形成新的距离矩阵。
(3)按照和步骤(2)相同的原则,再将距离最接近的两个类别合并,这时如果类别个数仍大于1,则继续重复这一步骤,直到所有的数据都被合并为一个类别为止。
案例实操:
    中、美、法、韩等七个国家的职业裁判和未经严格训练的体育爱好者对300次体操表演给出了评分,以下时评分数据。请根据评分的差异将裁判分为若干类。

案例分析及统计策略分析
本案例需要根据裁判打分情况,将裁判分类若干类,需要用到聚类分析。
SPSS实际操作(源数据sav,可在公众号扣1获取)
1、分析-分类-系统聚类

2、将8个变量全部选入“变量”框中。在“聚类“框中,勾选”变量“,在”显示“框中,勾选”统计“和”图“。

3、点击”图“,在”图“复选框中勾选”谱系图“,将冰柱图选为”无“,点击”继续“。

4、点击”方法“,聚类方法选择默认的”组间连接“(一般情况下常用的选择组间连接法和瓦尔德法)。测量选择平方欧氏距离(定量数据选择平方欧氏距离,分类数据选择计数卡方测量)。若数据量纲不同或数量级太大,未进行标准化,在转换值框内选择标准化,一般是选择Z得分。点击”继续“。最后点击”确定“。

分析结果描述
表一、集中计划表明了聚类过程,第一次是变量2和变量4聚类,第二次是变量3和变量5聚类, 第三次是变量变量2和变量4所在的类别又合并了变量6,依次类推,直到所有8个变量被全部合为一类。“系数”列给出了每一个步的聚类系数,该数值表示被合并的两个类别之间的距离大小。

集中计划

阶段

组合聚类

系数

首次出现聚类的阶段

下一个阶段

聚类 1

聚类 2

聚类 1

聚类 2

1

2

4

28.560

0

0

3

2

3

5

32.560

0

0

4

3

2

6

52.920

1

0

6

4

3

7

53.830

2

0

5

5

1

3

93.033

0

4

6

6

1

2

219.550

5

3

7

7

1

8

233.297

6

0

0


表二为谱系图,在该图形中,整个聚类过程会以直观的方式表现出来,他把类别间的最大距离(本例为233.297)算做是相对距离25,其他距离均换算成与之相比的相对距离。图的左边列出聚类的对象或事物,而对象或者类别的合并则通过线条连接的方式来表示。本例可见:1、体育爱好者(裁判8)的评分对单独区分开来,显然科班和非科班的判罚水平就是不一样。2、职业裁判很明显地被分为两组,美国裁判(裁判1)、法国裁判(裁判4)、韩国裁判(裁判6)是一组,而俄罗斯、中国、意大利、罗马尼亚的裁判被分在另一组。则会反映了上述国家在体操风格上的某种关系。

总结及拓展衍生
    上述聚类结果还存在以下问题:1、从聚类结果可见,两组职业裁判的类别差异仅仅略低于职业和非职业裁判间的差异不符合常理。(2)、意大利裁判的聚类结果被划人第二组,不太合适。基于上述分析,可以设法调整分析选项,改进聚类结果。考虑到本例进行的是变量聚类,而变量间距离的定义习惯上使用Pearson相关系数。在许多情况下也可以得到更合理的结果,这里可以尝试一下,新增操作如下。
    在“方法”子对话框中,在“测量”框组中的“区间”下拉列表中选择“Pearson相关性”。

    重新分析后得到的谱系图,有以下两点明显的变化(1)两组职业裁判的类别差异已经远远低于职业和非职业裁判间的差异。(2)职业裁判仍然明显地被分为两组,美国、法国、意大利、韩国的裁判(裁判1、裁判2、裁判4、裁判6)是一组,而俄罗斯、中国、罗马尼亚的裁判则被分在另一组。这一结果也更加符合实际。



到顶部