`
BlogDown
  • 浏览: 212808 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

聚类分析方法

 
阅读更多

4.3.1概念特征

1.含义

根据事物本身的特性研究个体分类的方法,是研究事物分类的基本方法。其是为了某种目的做的工作,并非真实存在所分的类。

2.原则

同一类中的个体相似性大,不同类中的个体差异很大。

3.分类

(1)按聚类对象分:

样品聚类:对观测量聚类,对反映被观测对象特征的各个变量值进行分类。目的是判断研究对象的属类。

变量聚类:根据所研究的问题选择反映事物某些特点的部分变量来研究事物的某方面。目的是找出彼此独立的有代表性的变量,以便在用少量有代表性变量代替众多变量时,损失信息很少。

(2)按聚类过程分:

分解方法:首先把所有个体认为一大类,然后根据距离最近或性质相似逐层分解,直到每个个体自成小类为止。

凝聚方法:首先把每个个体认为一小类,然后根据距离最近或性质相似逐步合并,直到所有个体一个大类为止。

4.3.2内容过程

1.数据准备

这里运用聚类分析方法对我国部分东西部地区的经济发展进行综合评价。

2.方法选择

按分析Analyze—聚类Classify—分层聚类Hierachical Classify的顺序展开如图4.10所示对话框。从左侧原始变量备选框中指定参与分析变量送入右侧变量Variable(s)框中。在聚类栏Classify选择聚类类型—观测量聚类Cases或变量聚类Variable,若做观测量聚类,还需指定一个标识变量送到样本标签框Label Cases by中。在输出显示栏系统默认选择统计量和图形。

单击方法选择Method功能按钮,展开对话框。

(1)聚类方法Cluster Method:定义、计算两项之间距离或相似性的方法。

组间连接:合并两类后使所有对应两项之间的平均距离最小。

组内连接:合并后使类中所有项之间的平均距离(平方)最小。

最近邻法:用两类之间最近点间的距离代表两类间的距离。

最远邻法:用两类之间最远点间的距离代表两类间的距离。

重心聚类:以计算所有各项均值间距离的方法计算两类间距离。

中位数法:以各类中的中位数为类中心。

最小方差:以类间方差最小为聚类原则。

(2)测度方法Measure:测度距离或相似性的算法。

方法一般与定义方法对应一致。聚类方法不同,测度算法相应不同,聚类结果会有区别。若方法与算法不一致,则输出警告提示,结果不能成立。

测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有:

欧氏距离:(∑(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。

距离平方:∑(Xi-Yi)2,目的是减少误差。

相似测度:∑(XiYi)2/((∑Xi2)(∑Yi2)),即两项间的相似性是向量间的余弦,值域-1—1,用0值表示相互垂直。

皮氏相关:∑(ZXiZYi)2/(n-1),即两项间的相似性是向量间的线性相关性,范围-1—1,0值表明非线性相关。

切氏距离:Max|Xi-Yi|,即两项间的距离是变量间最大差值的绝对值。

布氏距离:∑|Xi-Yi|,两项间的距离是每个变量值之差的绝对值总和。

明氏距离:(∑|Xi-Yi|p)1/p。

自定距离:(∑|Xi-Yi|p)1/r。若r=p,则为明氏距离。

(3)数据转换Transform Values:为消除量纲不同的影响。

若参与分析的变量量纲一致,则不需标准化转换。但不同的标准化会导致不同的聚类结果,因此选择方法注意与变量分布相对应。

标准化到Z分数:变量均值为0、标准差为1,(每个值-均值)/标准差。

标准化到某范围:范围-1—1,每个值/范围。

标准化到某一值:最大值为1,每个值/最大值。

标准化到某范围:范围0—1,(每个值-最小值)/范围。

标准化到某一值:均值的一个范围,每个值/均值。

标准化到标准差:单位标准差,每个值/标准差。

(4)测度转换Transform Measure:已计算相似性或不相似性,则不需转换。

距离取绝对值:

距离顺序颠倒:相似性值与不相似性值互变。

使距离标准化:(距离-最小值)/范围。

3.输出选择

(1)统计量

在主对话框单击Statistics出现对话框。

系统默认输出凝聚状态表Agglomeration schedule,其显示聚类每一步的合并过程、被合并两项间的距离、合并后的类水平,据此可以跟踪合并过程和观察接近程度。但需注意,选择不同的聚类方法、测度方法和标准化法,聚类的过程和结果不同。

还需选择输出分类结果,或指定类数Single solution,或限定类数范围Range of solution,但都取决于聚类类型选择。

(2)统计图

在主对话框单击Plot出现对话框。

树形图Dendrogram表明聚类每一步过程中被合并的类和系数值。其与凝聚状态表一致,侧重表示聚类的过程,同时直观体现聚类后的结果。

冰柱图Icicle综合聚类信息在同一图上,其侧重表示聚类的结果。可以选择观察全过程All clusters,或指定聚类范围Specified range of clusters,并需选定显示方向Orientation为纵向或横向。

两图都是确定分类结果的重要手段,但最后分类结果还需要研究者根据研究对象和研究目的自行确定。

(3)新变量

在主对话框单击Save出现对话框。

当通过统计量和统计图的分析而确定研究对象的分类结果后,需要保存分类变量在数据文件中,以便进一步分析时使用。

可选择保存单一结果Single solution,其指定类数后,变量表明每个个体聚类后所属的类。或选择指定范围结果Range of solution,其指定范围后,若干变量中每个变量均表明每个个体聚类后所属的类。

变量聚类不建立新变量。

4.分析评价

(1)聚类过程

自左至右各列依次为聚类步骤的顺序、合并的两项序号、距离的测度数值、合并的两项类号、合并结果的类号,该表详细表明了聚类过程的顺序、每步合并的来源、每次合并结果的去向、合并的依据。

选择不同的聚类方法和不同的测度算法,聚类的过程和结果均会不同,其中距离测度数值的描述方式也不同。这里因为选择皮氏相关作为距离测度方法,所以相关系数大即相似性强的两项先合并。若选择不相似性的测度方法,则可能数值小的两项先合并。

(2)聚类结果

显示按不同的分类方式给出的分类结果,具体应用哪类结果,需由聚类选择方法分析确定。

(3)聚类选择

冰柱图从“×”最少处开始逐个增加依次分类。此图可以清楚地看到所有项最后聚为一类的全过程。

树形图可以反映聚类的全过程。应用时,一般用直尺竖直放在图面上左右平移,在合并的竖线之间间隔最大距离的区间停止,则为最佳的分类方案。这时与直尺相交的每根横线就是一类,横线左端所包括的各项就是该类的成员。这样处理,各类的特点比较突出而容易定义。

两图都是确定分类结果的重要手段,但由于选择不同的聚类方法和测度算法,而造成分类的过程和结果有所不同,所以最后分类结果还需要研究者结合研究对象和研究目的自行确定。

(4)应用分析

4.3.3小结

方法(聚类、测度、标准)选择需要反复试验确定最优效果,但不同方法的结果差别不应很大,否则说明聚类变量的选择不真正反映观测量的分类特征。

观测量分类结果需要根据研究对象和研究目的由自己确定,因此一定要结合专业知识、同时认真观察原始数据特征,谨慎得出结论,并对分成各类命名。

变量聚类如何合并多个具有共同特征的变量、选择典型变量作为代表变量,主要根据专业知识、测量难易程度、变量相关系数进行。

在进行其它分析方法前,往往首先进行聚类分析,以便减少工作量、节省测量时间,又不影响分析结果;同时也是选择相互独立变量的非常实用方法。

分享到:
评论

相关推荐

    系统聚类分析方法(精心整理).pdf

    系统聚类分析方法(精心整理).pdf系统聚类分析方法(精心整理).pdf系统聚类分析方法(精心整理).pdf系统聚类分析方法(精心整理).pdf系统聚类分析方法(精心整理).pdf系统聚类分析方法(精心整理).pdf

    聚类分析方法讲义ppt

    聚类分析方法 将定量调查或者其他消费者数据进行聚类分析,再通过交叉分析描述细分市场轮廓是我们常用的方法。 聚类分析可以作为其他多元统计分析的预备过程,先聚类,然后再利用判别分析进一步研究各个群体之间的...

    论文研究-基于Hadoop的仿射传播大数据聚类分析方法.pdf

    仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射...

    基于聚类分析方法的矿井水源识别

    矿井水源的识别是矿井防治水工作中的重要环节,选择合适的识别方法是快速准确地识别水源的关键。...最后,结合已有的矿井水样数据,通过MATLAB仿真实验,证明了研究的聚类分析方法识别矿井水源的效果。

    基于数据挖掘的一种聚类分析方法在PDM系统中的应用研究.pdf

    基于数据挖掘的一种聚类分析方法在PDM系统中的应用研究.pdf

    聚类分析方法Clustering Analysis (CA)

    聚类分析方法【Clustering Analysis (CA)】 ppt 讲的很详细奥

    动态聚类分析方法.txt

    动态聚类方法是一中普遍被采用的方法,具有以下三个要素:1)选定某种距离度量作为样本间的相似性度量;2)确定某种可以评价聚类结果质量的准则函数;3)给定某个初始分类,然后用迭代算法找出使得准则函数取极值的...

    灰色聚类分析方法介绍

    本文介绍了灰色聚类分析方法的原理、特点和优点,并通过一实例向大家展示了该分析方法的全过程。

    几种聚类分析方法的fortran程序

    几种聚类分析方法的fortran程序,有详细的数据和方法

    主成分分析与聚类分析方法

    主成分分析与聚类分析方法,里面包含使用matlab的实例

    聚类分析方法在济宁市水质分析中的应用

    根据济宁市现有的水质监测站点的监测资料,应用聚类分析方法对济宁市水质状况进行分析评价。首先利用统计软件SPSS对所选取的监测站点进行聚合分类;其次用综合指数评价法对监测站点水质划分级别;最后综合聚类结果及...

    论文研究-检验双重性质特征的基因模糊聚类分析方法.pdf

    针对基因序列分类的特点,结合模糊聚类分析方法,在原来的Markov链模型基因聚类方法的基础上,引入核酸碱基对的相互作用,得到具有双重性质特征的距离矩阵,并根据模糊聚类分析方法得到模糊相似性矩阵和其动态聚类图...

    五种常用系统聚类分析方法及其比较.pdf

    五种常用系统聚类分析方法及其比较.pdf

    稀土元素聚类分析方法在物源示踪方面的应用

    为解决鄂尔多斯盆地华庆地区延长组长6段的物源问题,引入聚类分析方法.通过研究长6段砂岩的稀土元素特征和聚类分析,确定了该区的物源方向.稀土元素特征表明:配分曲线与上地壳稀土元素的分布形态几乎完全一致,与下地壳...

    论文研究-基于傅里叶变换和连通图的聚类分析方法.pdf

    针对已有的聚类算法存在的缺点, 假设数据样本的结果簇是密集的, 且簇与簇之间区别明显, 基于该假设提出一种基于傅里叶变换和连通图的聚类分析方法FGClus。首先针对每个样本点计算k阶距离矩阵并序列化作为离散傅里叶...

    K-means聚类分析(Iris数据集)模式识别

    数据集:Iris数据集 ...数据描述:Iris数据集包含150个鸢尾花模式样 本,其中 每个模式样本采用5维的特征描述 利用所学K-means聚类分析方法,对 Iris数据集进行聚类分析,并利用已知的样本类别标 签进行聚类分析评价

    论文研究-一种融合变异系数的k-mean聚类分析方法.pdf

    K-means聚类算法的性能依赖于距离度量的...针对这种不足,提出了融合变异系数的k-means聚类分析方法(CV-k-means),利用变异系数权重向量来减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means算法。

    基于混沌优化的模糊聚类分析方法

    基于混沌优化的模糊聚类分析方法,李超顺,周建中,提出了基于混沌优化的模糊聚类方法(COFCM)。COFCM将混沌优化策略与传统的模糊C-均值算法(FCM)相结合,用混沌变量搜索对模糊聚类目

Global site tag (gtag.js) - Google Analytics