互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

基于散列技术的快速子串归并算法


□ 吕学强 张 乐 黄志丹 胡俊峰

  摘要:用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n)的子串归并算法,并用数学方法证明其与O(n2)复杂度的算法等价,即输入相同时输出也相同.不同规模语料上的实验结果表明新算法能够大大缩短子串归并所需时间,适用于大规模语料库的处理.
  关键词:大规模语料库; 文本挖掘; 多词单元; 未登录词; 串频统计 
  中图分类号: TP 391
  文献标识码:A
  
  

 未安装PDF浏览器用户请先下载安装
原版页码:948,949,950,951原版全文
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文
关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | EMS快递查询
全刊杂志赏析网 2016