互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

一种基于类别分布信息的中文文本分类模型


□ 刘海峰 王元元 姚泽清

  [摘要]特征降维是文本分类面临的主要问题之一。首先通过x2分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩:在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。
  [关键词]文本分类 特征选择 特征聚类 Bayes分布 文本表示
  [分类号]TP391
  
  1 引 言
  
  伴随着信息技术的发展,互联网上海量信息资源对信息检索(Information Retrieval,IR)研究带来了巨大挑战,同时也为其提供了难得的发展机遇。作为信息检索和文本挖掘的重要内容之一,文本自动分类得到了越来越多的关注。文本分类(Text Categorization,TC)的主要任务就是在预先给定的类别标记集合下,根据待分文本内容对其类别归属进行判定。文本分类技术在自然语言处理、信息过滤、信息推荐等领域有着广泛的应用基础,同时其发展也受这些相关领域技术水平发展的制约。基于机器学习的中文文本分类方法相比较于早期的基于知识工程或专家系统的文本分类模式,在分类效果、方法灵活性、扩展性等方面均有所突破,同时在特征选择、文本表示、分类器性能评价、自反馈系统设计以及分类效果评估等方面均不同程度得到发展。
  
  2 文本特征降维的两种主要模式及其特点
  
  文本特征降维是文本分类面临的主要问题之一。文本特征降维主要有两种路径:一是基于特征相关特性的特征抽取;二是基于特征统计特性的特征选择。特征抽取一般是通过映射把测量空间的数据投影到特征空间,获得在特征空间相应的数值,进而对特征项的作用进行评估,其本质是完成测量空间到特征空间的变换。基于特征相关性的文本分类研究如潜在语义索引(Latent Semantic Indexing,LSI)、主成分分析(Principal Component Analysis,PCA)等模型得到一定进展,但是由于诸如语义排歧等相关的自然语言处理技术研究有待深入,完全基于概念的向量空间模型在信息检索应用中还没有充分体现出应有的优势。特征选择是从特征集合里借助评估函数选出对文本表示能力强的部分特征项,其结果是得到原特征项集的一个子集,本质上是对特征集合的约简。在特征选择方面,由于中文文本的语法、语义、语言习惯等在使用上呈现极端的复杂多样性,目前的文本特征选择方法如互信息、x2统计、期望交叉熵等尚有许多可以改进的地方。本文从特征项相对于文本类别分布的角度出发,对特征项选取方法和文本表示模式两个方面加以改进,提出了一种新的特征降维和文本表示方法度量文本和类别的相似度,试验结果表明,该方法在提高文本分类精度上取得了较好的效果。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《图书情报工作》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017