`
BlogDown
  • 浏览: 213555 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

聚类分析笔记

 
阅读更多

1. 什么是聚类
定义:
将无力或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。
由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

与分类的区别,分类是有指导学习——类数目已知
聚类是无指导学习——类数目未知
典型应用:
商务上,分析不同的客户群,并用购买模式来刻画不同的客户群的特征。
在生物学上,用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。
在游戏中,可以对玩家分类,对游戏分类,对游戏角色分类,获得一些信息。
活跃的研究主题:
数据挖掘对象类的典型要求:
聚类方法的可伸缩性:高伸缩性(处理数据量)
处理不同类型属性的能力:
发现任意形状的聚类:
用于决定输入参数的领域知识最小化:输入参数对聚类分析的影响很大
处理噪声数据的能力:
对于输入记录的顺序不敏感:
高维性:
基于约束的聚类:
可解释性和可用性:
2. 聚类分析中的数据类型
(1)数据矩阵
用p个变量来表现n个对象,nXp矩阵。
(2)相异度矩阵
存储n个对象两两之间的近似性,nXn矩阵
数据矩阵被称为二模矩阵,而相异度矩阵被称为单模矩阵。

区间标度变量
(1)计算平均的绝对偏差
sf = (|x1f - mf| + |x2f - mf| + … + |xnf - mf|)/ n
x1f, …, xnf 是f的n个度量值,mf是f的平均值,即mf = (x1f + x2f + … + xnf) / n
(2)计算标准化的度量值
zif =(xif - mf)/sf

0
0
0
(请您对文章做出评价)
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics