互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

不平衡数据集的分类方法研究



  摘要:传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对不平衡数据的分类,首先介绍了现有不平衡数据分类的性能评价;然后介绍了现有常用的基于数据采样的方法及现有的分类方法;最后介绍了基于数据采样和分类方法结合的综合方法。
  关键词:机器学习; 不平衡数据; 数据分类
  中图分类号:TP181文献标志码:A
  文章编号:1001-3695(2008)05-1301-03
  
  在过去的几十年中,全球信息科技的飞速发展导致了功能强大的计算机、数据收集设备和存储设备的产生。利用这些设备可以收集大量的数据信息以供人们进行事务管理、信息检索和数据分析。尽管收集得到的数据量非常大,但是对人们有用的数据往往非常有限,通常仅占全部数据的一小部分。这种某类样本数量明显少于其他类样本数量的数据集称为不平衡数据集。不平衡数据集的分类问题大量存在于人们的现实生活和工业生产之中。例如,寻找电信运行商的逃离客户[1],一般情况下逃离的客户要远远少于非逃离客户;利用检测数据诊断病人的疾病[2],如癌症,人们患癌症的概率是非常低的,因此癌症患者要远远少于健康的人;其他如从卫星图片中油井的定位[3]、学习单词的发音[4]、文本自动分类[5]、分辨恶意的骚扰电话[6]等。在这些应用中,人们主要关心的是数据集中的少数类,而且这些少数类的错分所产生的代价非常大。把有逃离倾向的客户判为正常客户将有可能失去该客户;把癌症病人误诊为正常将会延误治疗时机,对病人造成生命威胁。因此在实际应用中,需要提高少数类的分类精度。
  近几年来,不平衡数据集的分类问题也越来越受到数据挖掘和机器学习学术界的重视,已成为数据挖掘和机器学习界的热点问题之一。2000年美国人工智能协会(AAAI)[7]以及2003年机器学习国际会议(ICML)[8]特别对不平衡数据的学习问题召开了专题讨论会。2004年美国计算机协会(ACM)针对这一专题出版了一期通讯[9]。目前,处理不平衡数据集分类较好的方法主要有基于不平衡数据集的数据采样和基于不平衡数据集的分类。
  
  1不平衡数据分类的性能评价
  
  表1是二类问题的混淆矩阵。表中TP是真实正例的数目;FP是虚假正例的数目;TN是真实负例的数目;FN是虚假负例的数目。
  
  受试者工作特性(receiver operating characteristic, ROC)曲线[10]以及正负例精确率的几何平均[11]是两种流行的分类器性能评价方法。它们都独立于数据集类间的分布,对数据集的不平衡性有很好的鲁棒性,因此它们可用于不平衡数据集分类器的评价。
   ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017