互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于贝叶斯分类器的主题爬虫研究


□ 邹永斌 陈兴蜀 王文贤

  摘 要:主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。

  关键词:贝叶斯; 分类器; 主题爬虫; 主题相关度

  中图分类号:TP391文献标志码:A

  文章编号:1001-3695(2009)09-3418-03

  doi:10.3969/j.issn.1001-3695.2009.09.061

  Research on focused crawler based on Bayes classifier

  ZOU Yong-bina, CHEN Xing-shua, WANG Wen-xiana,b

  (a.Network & Trusted Computing Institute, Computer College, b.Institute of Information Security, Sichuan University, Chengdu 610064, China)

  Abstract:Focused crawler is the core technology to implement a focused search engine. This paper made a research on focused crawler based on Bayes classifier, introduced the system architecture and key implementation of a focused crawler based on Bayes classifier. The key parts of the crawler include URL queue, crawling history, page downloader and page analyzer. This paper focused on the page ranking algorithm based on Bayes classifier.Used an improved TF-IDF algorithm to extract the characteristics of the page content, and adopted Bayes classifier to compute the page rank. The experiment results show that Bayes classifier is a better choice than PageRank algorithm to implement a focused crawler, under the condition of large network of resources.

......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017