互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于概率相似度的不完备信息系统数据补齐算法


□ 李 萍 吴祈宗

  (北京理工大学 管理与经济学院, 北京 100081)
  
  摘 要:在决策属性已知、条件属性值分布不确定的情况下,用基于概率相似度原理和按决策属性划分系统的原则,对缺损数据进行填补,可使不完备决策信息系统的完备化具有较高可信度。
  关键词:粗糙集; 缺损数据; 概率相似度; 算法
  中图分类号:TP391 文献标志码:A
   文章编号:10013695(2009)03088103
  
  Completing data algorithms based on probability similarity
  
  LI Ping, WU Qizong
  
  (School of Management & Economic, Beijing Institute of Technology, Beijing 100081, China)
  
  Abstract:Based onprobability similarity and the system partition according to decision attribute in the condition of unknown data distribution, this paper put forward a new methodto improve the algorithm ofROUSTIDA , which made a high reliability for the missing data of incomplete decision information system.
  Key words:rough set; missing data; probability similarity; algorithm
  
  利用粗糙集对数据进行分析处理已成为数据挖掘研究的新热点。粗糙集理论在20世纪80年代初由Z.Pawlak提出,其主要思想是把那些无法确认的个体都归属于边界线区域内,而这种边界区域被定义为上近似集和下近似集,从而以不完全的信息或知识去处理一些不分明的现象,或依据所观察到的不精确的结果对数据来进行分类[1],粗糙集理论在机器学习、知识获取、决策分析、模糊控制等方面得到了越来越多的应用。
  一般来说,大型数据信息系统中往往存在残缺的数据,对该类数据进行分析前都需要做数据预处理的工作,数据预处理包括简单删除不全的数据、将数据中空缺的属性值作为特殊属性来处理、利用统计学方法如Mean Completer算法对数据进行处理等,但以上方法对数据的补齐效果往往不能保证[2]。基于粗糙集理论中的不分明关系,可以用数据中其他与残缺数据相似的属性值来对数据进行填补,这种填补尽可能地表现出了信息系统的基本特征和隐含的规律。文献[3]利用基于决策独立的原则,对ROUSTIDA算法进行改进,使得某样本xi在决策属性缺失时,选择与它相似的无任何缺失值的对象的决策属性值,消除了填补时决策规则中潜在的矛盾项;Kryszkiewicz[4,5]于1998年提出粗糙集中对象间存在相似关系,指出相似关系也是一种容差关系;在此相似关系基础上,文献[6~8]利用量化相似关系的理论,对样本间的相似关系进行了定量的分析,并把量化引入ROUSTIDA算法中,从而提高了填补的效率;文献[9]研究了在决策属性无任何缺失时,如填补xi的某个条件属性值时,从其他与其有相同决策属性值的样本中选择,避免了出现条件属性值一致,而决策属性值不一致的情况;文献[10]提出了以样本间概率最大值作为相似度最大来进行样本填补的思路。本文则讨论了不完备信息系统在决策属性无缺失的情况下,对条件属性进行填补时,先采用按决策属性对决策系统进行划分,然后再以属性值出现的概率来定义对象间的相似度,并在此基础上对ROUSTIDA算法进行改进。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017