互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

基于模糊VSM和RBF网络文本分类方法的研究与实现


□ 郑凤萍

  〔摘要〕首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成 :输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来 ;其次,构造更详细的算法推导及实施方案 ;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。
  〔关键词〕数据挖掘 特征提取 神经网络 文本分类
  〔分类号〕TP391
  
  Research and Implementation of Text Classification Method Based on Fuzzy Vector Space Model and RBF Neural Network
  Zheng Fengping
  Daqing Petroleum Institute Library, Daqing 163318
  〔Abstract〕A classification method based on fuzzy vector space model and radial basis function network is presented in this paper. The network includes input layer, hidden layer and output layer. Input layer performs import of samples, hidden layer extracts model characters of samples and output layer presents classification results. The information of its locality in the document is considered while the keywords of model characters are extracted. The classification results of this method are more precise than that of general method because fuzzy eigenvectors are applied. Finally the availability of model and algorithms is proved by the classification of some documents in China periodical document database.
  〔Keywords〕data mining characters extraction neural network document classification
  
  文本自动分类在数据挖掘中是一项非常重要的任务。目前的分类方法分出的类是论域上的一些普通集合,即分出的类是精确的,往往不能满足实际问题的需要。因为有些实际问题往往只能分出一些模糊的类,对象属于哪个类的界限是不清楚的[1]。本文就文本分类问题提出一种基于模糊VSM和RBF网络的解决方案。文中给出了详细的算法推导及实施方案,实际应用部分证明了方法的有效性及可行性。
  
  1文档模糊特征提取
  
  特征提取是文本分类系统中十分关键的问题。传统VSM的特征提取方法一般不考虑特征项在文档中的位置信息,因此会影响分类精度。本文应用模糊数学思想,通过特征项在文档中的位置来反映文档主题的重要程度[2](隶属度),并根据特征项的隶属度计算特征项的频数。
  1.1特征项集的构造
  假设有P篇待分类文档,特征项集的构造可描述如下:
  
  ●若特征项在标题和摘要(如果有的话)中出现,应给予较高的隶属度;
  ●若特征项出现在正文中的一些“关键句”,即那些包含诸如“关键在于……”、“旨在……”、“主要目的(标)是……”等的句子,应给予较大的隶属度;
  ●若特征项出现在引言和结论段中,应给予一定的隶属度;
  ●若特征项出现在段首或段尾,应给予一定的隶属度;
  ●若特征项在正文中有较高的出现频度,应随着频度的增加逐次增加其隶属度;
  ●若一个特征项同时处于上述多种地位,则其隶属度以求和方式迭加;
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文
关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | EMS快递查询
全刊杂志赏析网 2016