互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于矢量量化码书的离群点检测方法


□ 胡 云 李存华 孙志挥

  摘 要:利用矢量量化码书作为数据分类模式最优代表集的特点,提出基于码书的离群点概念,论证了其与经典统计学关于离群点定义的内在联系。在基于学习的矢量量化码书生成算法和最近邻码字搜索算法基础上构造了离群点检测算法。实验结果表明了提出的关于离群点定义的合理性和算法的有效性。
  关键词:矢量量化; 码书; 离群点检测算法
  中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2008)08-2322-03
  
  Vector quantization approach to outlier detection
  HU Yun1, LI Cun-hua1,SUN Zhi-hui2
  (1. Dept. of Computer Science, Huaihai Institute of Technology, Lianyungang Jiangsu 222005, China; 2. School of Computer Science & Engineering, Southeast University, Nanjing 210018, China)
  Abstract:In vector quantization, the codebook is chosen so as to best represent the distributional structure of the dataset of vectors. This characteristic of codebook is suitable for the purpose of outlier detection. This paper defined the concept codebook-based outlier followed by a dedicated analysis of its relation with the definition from statistical discipline. With this definition, the outliers could be found with a two-phase algorithm. Experiments on real world dataset show that this novel approach is quiet promising both on its rationality and effectivity.
  Key words:vector quantization; codebook; outlier detection algorithm
  
  目前,与矢量量化(VQ)技术相关的理论和应用研究十分活跃。由于矢量量化技术能利用矢量数据对象间及矢量各分量间的关联特性有效地消除信息冗余,从而简化数据处理的复杂性,使它成为广泛运用于各类复杂数据压缩、存储、传输与分析的重要技术。随着数据挖掘技术的发展,研究者对这一数据处理方法开展了深入而广泛的探索。传统地,矢量量化过程首先起始于对事先择取的训练数据集的聚类、分类研究;然后,通过训练数据集的分类模式提取相应的特征矢量集(即码书)来近似地表达全体数据集的数据分布模式。通过特征矢量数据集的提取,矢量量化技术实现了对后续数据简约高效的描述与处理手段。显然,矢量量化技术本身所遵循的“训练→模式提取→后续数据处理”原理与数据挖掘研究的一般过程相吻合,从而成为开展数据挖掘研究的有效工具。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017