SPSS聚类分析(3)-二阶聚类



具体答疑展示请点击查看:论文统计指导服务,真免费,永久免费,超靠谱,快来加入吧
概述:
      聚类分析是一种基于数据自身信息对数据进行分类的一种数据统计方法,利用距离的远近将数据分为若干类别,以使得类别内数据的差异尽可能小,类别间差异尽可能大,达到分类的目的,依此将研究事物划分为不同的类别。在研究中,人们倾向于把事物按照其属性和特征分为若干类别,以便于研究和认识。其中经验来分类是比较主观,同时对信息的利用不足,同时也不准确,为了解决这个问题,需要用到聚类分析。
      聚类分析包括K-均值聚类、系统聚类、二阶聚类.前面已经讲解过K-均值聚类(spss聚类分析(1))、系统聚类(SPSS聚类分析(2):系统聚类),接下来将分别讲解二阶聚类。
      二阶聚类又称为两步聚类,可以同时处理定类和定量两种类型的变量并且计算速度快,不需要提前指定聚类个数,但个案的排序必须完全随机。      两步聚类法的第一步是预聚类,对案例进行初步归类,这一步骤通过构建和修改聚类特征树完成。聚类特征树包含许多层节点,每一个节点包含若干案例。与树模型类似,聚类特征树也把节点分为分枝节点(branchnode)和叶节点(leaf node)。每一个叶节点代表一个子类,有多少个叶节点就有多少个子类,那些分枝节点和其中的统计量则用来指引新进入的案例应该进入哪个叶节点,每个叶节点中的信息就是聚类特征,包括针对连续变量的平均值和方差以及针对离散变量的计数。
      针对每一个案例,从根开始进入聚类特征树,并依照节点中信息的指引找到最接近的子节点,直到到达叶节点为止。如果案例与该叶节点的距离小于临界值,那么它进入该子节点,并且其上各节点的聚类特征都会得到更新,反之该案例会重新生成一个新的叶节点。如果这时叶节点的数目已经大于指定的最大聚类数,则聚类特征树会通过调整距离临界值的方式重新构建。当所有案例都通过以上方式进人聚类特征树时,预聚类过程也就结束了。叶节点的数量就是预聚类数量。由于所有案例均只需要通过聚类特征树一次就会被归并入某个叶节点,所以两步聚类法可以较低的硬件水平较快地得到结果。
      第二步是正式聚类,对第一步得到的类别进行聚类,并确定最终方案。这一次在SPSS中采用合并型层次聚类法进行。在层次聚类的每一步中,都会计算反映现有分类是否适合现有数据的统计指标:AIC准则或者BIC准则,这两个指标越小,说明聚类效果走越好,两步聚类法会根据AIC和BIC值的大小,以及类间最短距离的变化情况来确定最优的聚类类数。
案例实操:
      现有某种疾病的500个患者资料,涉及的变量包括年龄、性别、血压、胆固醇、血钠含量、血钾含量。现希望通过聚类分析对患者的情况进行归类,以更清晰地了解这类患者的特征。

案例分析及统计策略分析
      该案例需要通过聚类分析,对患者的资料进行归类,患者资料中同时含有连续性资料和分类资料,可以使用二阶聚类聚类分析。
SPSS实际操作(源数据sav,可在公众号扣1获取)
1、分析-分类-二阶聚类

2、将“性别、血压、胆固醇”选入“分类变量中,将”年龄、钠含量、钾含量“选入”连续变量“框中。测量距离选择对数似然,若只有连续变量,则可以选择欧式。聚类数目默认最大15,聚类准则为BIC。

3、点击“选项”,由于SPSS默认对所有的数值变量进行标准化,此处选择默认,无需更改。点击“继续”

4、点击”输出“,勾选”透视表“。最后点击”确定“。

分析结果描述
两步聚类法的结果以模型方式显示,结果最终被聚为4类,双击进入“模型查看器”,查看更详细的界面
 

“模型查看器”窗口分为左右两个部分,各自底部有一个选项框,可以选择当前显示的内容。默认情况下分别为“模型概要”和“聚类大小”。根据结果分布得知,这四类的案例分布比较均匀。

在模型查看器左下,将查看改为聚类,可以看到聚类模型结果考察的核心部分,可查看各个变量在聚类分析的重要程度,鼠标放在相应的模块内,会显示变量重要性数值以及在该类别的分布情况。对于某些变量的重要性比较低,在后续中可将不重要的输入踢去再进行聚类,聚类模型概要中用颜色的深浅表示各个变量在聚类分析的重要性,本例胆固醇的重要性最高,钾含量的重要性最低。


如果希望进一步查看各变量在类别间的分布特征,可以选中任一单元格,在“模型查看器”窗口底部右侧选项卡为“单元格分布”。会显示该变量在当前类别中的分布及该变量在总体中的分布。

将右侧的聚类大小改为“预测模型变量重要性”,可以图的方式呈现出来,选择不同的类可展现不同类别的重要性,此处只是将相对重要性的数值用条图呈现而已。

在模型中,查看聚类比较,可直观的看出不同聚类的分布,比如点击“2”即可选种这一整列,然后点击聚类比较即可呈现出来。“聚类比较”输出的结果对各个类别的特征进行了直观的描述。

按shift选全部的类别,进行聚类比较,可以得到4个类别的特征比较图。

最终的类别特征描述
通过以上聚类结果分析,最终可以把患者分为4个类别,其特征如下:
第一类:高血压、胆固醇浓度正常。该类别人数为98,占患者总数19.6%。该类别全部为高血压、胆固醇浓度正常的患者,血液中钠含量高于平均水平。
第二类:男性、胆固醇浓度高。该类别人数为136,占患者总数27.2%。该类别全部为男性胆固醇浓度高的患者,血压无明显特征,并且血液中钠含量低于平均水平。
第三类:女性、胆固醇浓度高。该类别人数为134,占患者总数26.8%。该类别全部为女性胆固醇浓度高的患者,血压无明显特征,并且血液中钠含量高于平均水平。
第四类:非高血压、胆固醇浓度正常。该类别人数为132,占患者总数的26.4%。此类别全部为胆固醇浓度正常的患者,无一人为高血压,并且血液中钠含量低于平均水平。


到顶部