互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于模板的Web信息自动提取方法


□ 郑长松 傅 彦 佘 莉

   (电子科技大学 计算机工程学院 数据挖掘实验室, 成都 610054)
  
  摘 要:为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法。该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储。实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要。
  关键词:信息提取;模板化;自动识别;分隔标记;结构化
  中图分类号:TP393.04 文献标志码:A
   文章编号:10013695(2009)02057003
  
  Templatebased information automatic extraction of Web
  
  ZHENG Changsong,FU Yang,SHE Li
  (Laboratory of Data Mining, School of Computer Science & Engineering, University of Electronic Science & Technology of China, Chengdu 610054, China)
  Abstract:In order to deal with the contradiction between accuracy and efficiency in the traditional Web information extraction,proposed one method to automatically extract Web information, which was based on the combination of template and machine automatic diagnosis.First,used a set of heuristic rules of automatic diagnosis to detect separating characters between different attributes in HTML text, and deployed those characters to the template, then based on the template analyzed Web page of the same kind, and finally saved the results in the form of topic thread. Experimental results demonstrate that compared with the traditional Web information extraction ways,this method can deal with Web pages with rich multiple structures, and sufficiently improve the accuracy, recalling rate and efficiency, and that the method can dynamically extract relevant information to respect users’ requirement and support various successive researches withoutrevision of the algorithm. ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017