互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

文本自动分类系统文本预处理方法的研究


□ 周钦强 孙炳达 王 义


摘 要:在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。
关键词:文本分类;文本预处理;停用词;中文分词
中图法分类号:TP319
文献标识码:A
文章编号:1001—3695(2005)02—0085—02

注:本文的正文部分是PDF格式文件,请下载安装 Acrobat Reader 7.0 软件后点击下面的页码阅读。
[85] [86]

......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017