互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

一种新的面向主题的爬行算法


□ 李卫疆 赵铁军 朴星海

  (1.昆明理工大学 云南省计算机应用重点实验室 昆明 650051; 2.哈尔滨工业大学 计算机科学与技术学院 哈尔滨 150001)
  
  摘 要:虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足。主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序爬行器待下载链接队列中的链接,使得只需访问很少的不相关页面就能够得到很多相关的页面链接。结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示是一种寻找主题相关页面很有效的方法。
  关键词:爬行器; 主题; 面向主题
  中图分类号:TP301.6; TP393文献标志码:A
  文章编号:1001-3695(2009)05-1663-04
  
  New algorithm of topicoriented crawler
  LI Weijiang1 ZHAO Tiejun2 PIAO Xinghai2
  (1.Computer Application Key Laboratory of Yunnan Province Kunming University of Science & Technology Kunming 650051 China; 2.School of Computer Science & Technology Harbin Institute of Technology Harbin 150001 China)
  Abstract:The general crawler provides more help to people for finding information in WWW. However it has some drawback in terms of precision and efficiency because of its generality and no specialty. This paper addressed two issues of the topicoriented Web crawler. One is how to make the definition of the topic the other is how to sort of links to be downloaded in the queue efficiently. It aimed to visit only relevant pages and got a great scale of hyperlinks which link to the relevant pages. The crawl method is a novel one which was based on the semistructured features of the website and content information. The results of experiment show that it is a very effective method for focused crawler. ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017