spss聚类分析(1)



具体答疑展示请点击查看:
概述:
   聚类分析是一种基于数据自身信息对数据进行分类的一种数据统计方法,利用距离的远近将数据分为若干类别,以使得类别内数据的差异尽可能小,类别间差异尽可能大,达到分类的目的,依此将研究事物划分为不同的类别。在研究中,人们倾向于把事物按照其属性和特征分为若干类别,以便于研究和认识。其中经验来分类是比较主观,同时对信息的利用不足,同时也不准确,为了解决这个问题,需要用到聚类分析。
    聚类分析包括K-均值聚类、系统聚类、二阶聚类
    聚类分析变量可以大致分类两类,一类是分类变量(如性别、工作、职业等),另一类是连续变量(如身高、体重等)。聚类分析时上述两类变量采用的距离测量方式完全不同,对于分类变量多使用卡方距离作为测量指标,对于定量数据多采用欧几里得平方距离,如果数据中存在两种数据类型混杂的情况,可以将分类变量编码为哑变量的方式拆分为多个二分类变量,然后按照定量变量的方式进行处理。在每一次系统聚类中,只能输入一种类型的变量,即要么是分类变量要么是定量变量,不能同时进行聚类,但可以通过将分类数据转为定量数据的方式来一起聚类
   在聚类方法的选择上,如果是对变量进行聚类,那么只能选择系统聚类(层次聚类),如果是对个案,那么系统聚类、K均值聚类和二阶聚类(两步聚类)都可以实现目标。系统聚类和两步聚类可以对变量或者个案进行聚类,但K均值只能对个案聚类。
   聚类分析的变量之间不能存在高度相关性,若存在可先对高度相关性的变量聚类,从而选出有代表性的变量或者进行降维。对于不同变量的数量级相差太大,会使得变量间的影响明显不平衡。因此对于这些变量,聚类之前需要对数据进行标准化处理,常用的标准化方式有两种,一种是把数据全部标准化为服从平均值为0,标准差为1的标准正态分布。另一种是把数据变换为范围为0到1之间的数据。对于普通数据,是否进行标准化需要看结合自己的专业来决定,因为标准化后每个变量的贡献度都一样了。
案例实操:
一、K-均值聚类分析:K-均值聚类分析用于对样品进行快速聚类,计算量小,适合对大样本数进行分析。当然也存在局限性:1、只能对个案聚类,无法对变量聚类,所使用的数据必须是连续性变量。2、需要用户指定将样品分为多少类,要求用户事先知道需要将案例分为几类。
案例:某研究者为了研究移动电话客户使用收集情况,收集了以下数据集,包括6个变量,分别为工作日上班时期电话时长、工作日下班时期电话时长、周末电话时长、国际电话时长、总通话时长和平均每次通话时长。研究者希望对移动电话用户进行细分,了解他们不同的手机消费习惯。根据前期调研,研究者希望对移动用户进行细分,以了解他们不同的手机消费费习惯。根据前期调研,研究者认为移动用户应被分为5个主要群体,现希望根据定量聚类结果,以对各类别采取不同的市场营销措施。
SPSS实际操作(源数据sav,可在公众号扣1获取)
因数据取值差别巨大,首先需对数据进行标准化处理。方法:分析-描述统计-描述,将所有变量选入勾选“将标准化值另存在变量”即可,再次不赘述。
① 分析-分类-K均值聚类

② 将所有变量选入“变量”框中,将“客户编号”选入“个案标注依据”中,在“聚类数”框输入5.

③ 点击“迭代”按钮,将“最大迭代次数”改为100。

④ 单击“选项”按钮,勾选“初始聚类中心”、“ANVOA表”和“每个个案的聚类信息”,点击“继续”,最后点击“确定”

分析结果描述
表1:为初始聚类中心坐标,给出了每类别初始定义的聚类中心,其选择原则是使得各初始聚类中心的散点在由所有变量构成的空间中离得尽可能远。

表2:迭代历史记录,该表数据随着迭代次数增加,聚类中心变化越来越小,直至趋近于0。本案例在第35次迭代的时候终止,各聚类中心已收敛。

表3、给出了最终聚类中心,指的是各个变量在各个类别的平均值。
最终聚类中心

表4给出了单因素方差分析的结果,结果显示,标准化后的5个变量在类间分布均有差异,表示标准化后的5个变量对分类结果均起作用。

表5给出了各个类别的案例数量,本研究中人数最多的是第2类,最少的是第5类。

每个聚类中的个案数目

聚类

1

443.000

2

1239.000

3

831.000

4

806.000

5

76.000

有效

3395.000

缺失

0.000


结果总结:
(1)第一类:第一类用户总通话时间长、工作日上班时期通话比例高的用户。且该类客户国际电话时间是各类客户中最长的。该类用户为“优质客户”。
(2)第二类:总通话时间短、各时段通话时间都短的用户。该类用户为“低端客户”。
(3)第三类:总通话时间居中、工作日上班时期通话比例高用户。该类用户称为“中端商务客户”。
(4)第四类:总通话时间居中、工作日下班时期通话比例高用户。该类用户为“中端日常用客户”。
下一期将进一步讲解系统聚类分析和二阶聚类分析


到顶部