互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于PCA和K-均值聚类的有监督分裂层次聚类方法浦路平 赵鹏大 胡光道 张振飞 夏庆霖



  摘要:提出了一种新的基于PCA和K-均值聚类的有监督二叉分裂层次聚类方法PCASHC,用K-均值聚类进行逐次二叉聚簇分裂,选择PCA第一主成分相距最远样本点作为K-均值聚类初始聚簇中心,解决了K-均值聚类初始中心随机选择导致结果不确定的问题,用聚簇样本类别方差作为聚簇样本不纯度控制聚簇分裂水平,避免过拟合,可学习到合适的聚类数目。用四组UCI标准数据集对其进行了10折交叉验证分类误差检验,与另外七种分类器相比说明PCASHC有较高的分类精度。
  关键词:数据挖掘; 机器学习; 有监督聚类; 分裂层次聚类
  中图分类号:TP301文献标志码:A
  文章编号:1001-3695(2008)05-1412-03
  
  0引言
  
  聚类分析依照物以类聚原理将研究对象分组,可以提供样本分布的结构信息,是一种重要数据挖掘方法,在自然科学和社会科学中得到广泛应用。经典聚类方法是无监督学习方法,要预先指定聚簇数目,如果聚簇数目不正确,无法得到正确聚类结果。因此正确的聚簇数目是很重要的聚类参数和样本结构信息,从样本特征数据中学习到合适的聚簇数目意义重大。
  K-均值聚类方法和层次聚类方法都需要提供正确的聚簇数目。前人曾用逐步增加聚簇数目的K-均值聚类或层次聚类方法寻找正确的聚簇数目,但拐点不明显时无法使用[1]。
  为了通过数据挖掘从样本特征数据中学习到正确的聚簇数目,可以利用带有类别标签的样本进行有监督聚类。有监督聚类因有样本类别标签分布信息的教师监督信号,极大地降低了信息的不确定性,工作效率较高,分类结果为明确的真实类别,能反映出子类等样本分布结构。
  有监督聚类的目的是找出划分样本为聚簇内样本纯度大而数量尽可能少的聚簇聚类方案。现有多种形式,如学习向量量化网络[2,3]、基于划分和增量的动态聚类方法[4,5]、支持向量机[5]等。学习向量量化网络在竞争学习网络中按分类结果对错进行奖惩来调整权值学习。基于划分和增量的动态聚类方法常用聚簇内类别不纯度惩罚指标最小化方法。支持向量机结合样本类别的约束信息,通过核函数非线性映射到高维希尔伯特空间,使其在新的空间中同类样本相聚一起,异类样本分离加大,可以用超平面划分,实现有监督聚类。这些方法在要求指定聚簇数目、学习及分类效率和提供显式的子类分布结构信息上各有长短。
  K-均值聚类(又称C-均值聚类)是一种普遍采用的基于划分的动态聚类方法,是在选定的相似性距离度量和评价聚类结果质量的准则函数基础上给定某个初始分类后,用迭代算法找出使准则函数取极值的最好聚类结果[1]。其最佳初始划分尚无解决良方,现多用随机方法,有较大不确定性。
  非监督的增量逐次K-均值聚类法有时可以学习聚簇数目。它是通过逐渐增加聚簇数目K和进行K-均值聚类法,直到评价聚类结果质量的准则函数值对K的变化率达到一个拐点时停止,此时的K作为正确的聚类数目。如果没有明显的拐点,则此法失效。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017