互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

一种新的基于网格的聚类算法



  摘要:新的基于网格的聚类算法(CABG)利用网格处理技术对数据进行了预处理,能根据数据分布情况动态计算每个单元格的半径,并成功地将网格预处理后所得单元格数据运用于其后的聚类分析中,从而简化了算法所需的初始参数。实验表明,CABG算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点,而且具有较高聚类速度以及对初始参数较低的敏感度。
  关键词:聚类; 网格; 数据挖掘
  中图分类号:TP301文献标志码:A
  文章编号:1001-3695(2008)05-1337-03
  
  数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。它是数据库研究中的一个很有应用价值的领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。其常用方法有聚类分析、人工神经网络、遗传算法等。其中聚类分析是数据挖掘中广为研究的课题之一[1]。
  聚类分析就是从数据中寻找数据间的相似性,并依此对数据进行分类,使得不同类中的数据尽可能相异,而同一类中的数据尽可能相似,从而优化大规模数据库的查询和发现数据中隐含的有用信息或知识。数据聚类在很多领域有着广泛的应用,如模式识别、图像处理和数据压缩等。迄今为止,仅仅数据库界的研究人员就已经提出了不少数据聚类算法,比较著名的有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5]等。这些算法都试图从不同途径实现对大规模数据库的有效聚类,但总的来说,都没有取得理想的效果。可以说,对于高维、大规模数据库的高效聚类分析仍然是一个有待研究的开放问题。
  
  1相关研究
  
  基于网格的聚类算法由于易于增量实现和高维数据挖掘而被广泛应用于聚类算法中。迄今为止,已经有很多人提出了基于密度或网格的聚类算法,如CLIQUE、IGDCA[6]、CABDET[7]等。CLIQUE是一种基于网格和密度的聚类算法,它是一种更广泛的子空间聚类方法,可以通过任意组合来产生子空间,再将数据投影到子空间中进行聚类,具有网格类算法效率高的优点,并且可以处理高维数据。但是在划分网格时没有考虑数据的分布,从而导致了聚类质量的降低。IGDCA是一种基于密度的增量式网格聚类算法。该算法通过将数据空间划分成体积相等的若干单元,再对这些单元采用基于密度的聚类分析方法进行聚类,从而有效地提高聚类的效率,一定程度上减少了聚类所需的内存和I/O开销。但由于它是基于DBCSCAN算法的改进,用户仍需输入聚类初始参数。CABDET是一种基于构建密度树的聚类算法。该算法通过为每个聚类构建一棵密度树,采用动态参数,每次的拓展聚类都根据单元分布情况自动计算对应的半径参数,减少了聚类对初始参数的敏感度,取得了较好的聚类效果。但是它不进行任何的预处理而直接对整个数据库进行聚类操作,当数据量非常大时,就必须有大量内存支持,I/O消耗也非常大。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017