互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于启发式规则的网页主题信息精确定位方法胡金柱 周 星 舒江波 熊春秀


摘 要:目前大部分的信息抽取方法都是针对主题信息块的提取,没有进一步深入到各个单独主题信息的抽取。针对这一问题,提出了一种基于启发式规则的网页主题信息精确定位方法。首先针对各个单独的主题,分析其多方面的特征,制定出对应的启发式规则;然后利用不同的规则对定位主题重要度不同的这一特点,得到启发式规则的权值矩阵;最后利用基于启发式规则的定位算法精确定位各个主题。将该方法用于网页主题信息抽取系统中,抽取系统能够有效地对各个单独的主题进行定位和抽取。实验结果表明,该方法具有很好的有效性和准确性。
  关键词:启发式规则; 信息抽取;主题信息定位;模板化网页
  中图分类号:TP311
  文献标志码:A
  
  文章编号:1001-3695(2010)02-0494-04
  doi:10.3969/j.issn.1001-3695.2010.02.024
  
  Approach of pinpointing subject information in Web
  pages based on heuristic rules
  
  HU Jin-zhu, ZHOU Xing, SHU Jiang-bo, XIONG Chun-xiu
  
  (Dept. of Computer Science, Huazhong Normal University, Wuhan 430079, China)
  
  Abstract:At present, most of information extraction methods aim at the extraction of subject information block, not further penetrate into the extraction of each independent subject information. To solve this problem, this article proposed an approach of pinpointing subject information in Web pages based on heuristic rules. Firstly, for each independent subject, it analyzed its various characteristic, and formulated corresponding heuristic rules. Then, it obtained weight matrix of heuristic rules by using the feature that different rules had different importance to locate subject. Finally, according to localization algorithm of heuristic rules, it pinpointed each subject. The method has been applied to an automatic extraction system, and the experimental result shows the effectiveness and accuracy of the method. ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017