互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于动力粒子群算法的网络蜘蛛搜索策略研究童亚拉 李元香 沈显君



  摘要:传统的基于单一价值评价的网络蜘蛛搜索策略存在主题漂移,不能有效利用链接结构信息,容易迷失方向,过于依赖关键词集等不足。提出一种基于动力粒子群算法的启发式网络蜘蛛搜索算法,新算法充分考虑Web站点信息资源分布的特点,给合了两类评价标准的优势,根据实际的搜索情况,在线调整两种价值的权重,具有自适应性。实验表明,新算法具有较高的查全率和查准率,能较好地解决现存问题。
  关键词:网络蜘蛛; Web社区; 动力粒子群; 立即价值; 未来价值
  中图分类号:TP311.1文献标志码:A
  文章编号:1001-3695(2008)05-1374-04
  
  0引言
  
  网络蜘蛛是垂直搜索引擎中最重要的一个组成部分,是一种智能化软件,其任务是获取符合要求的Web页面返给用户或保存在索引库中,并决定链接访问顺序。如何全面而准确地采集特定领域的相关内容是垂直搜索引擎的一个研究重点。网络蜘蛛常采用最好优先原则即每次选择最有价值的链接进行访问,因此一些启发式规则被运用到搜索策略的研究之中,如1999年Chakrabarti等人采用巩固学习的方法来对即将爬行的网页作出智能性判断与选择;2001年Chau和Chen等人用 Hopfield网络学习与竞争机制实现Hopfield Net Spider;2002年王靖等人和2004年李学勇等人报告了基于模拟退火机制的网络蜘蛛,这些在某种程度提高了网络蜘蛛的智能化程度。
  本质上说,网络蜘蛛的搜索问题是一个多目标规划问题,在合理的时间限度内,以较少的网络资源、存储资源和计算资源获得更多的主题相关页面。网络蜘蛛研究的核心是解决页面和URL的主题相关性判别问题,因此如何评价链接价值是决定此类网络蜘蛛爬行效率的关键。链接价值评价算法可分为两类,即基于立即回报价值(简称立即价值)和基于未来回报价值(简称未来价值)的评价算法。
  基于立即价值的评价算法主要是依据搜索时在线获得的文本或Web结构信息来对链接页面的重要性进行预测。文献[1~4]通过对页面间相互引用关系的分析和计算主题与链接文本内容的相似度大小来确定链接的重要性,进而决定链接访问顺序。这类方法优点是理论基础较好,计算简单,在距离相关页面较近的地方搜索时表现出良好的性能[5],但也存在一些缺陷:页面文本缺乏全局性,很难反映Web的整体情况,网络蜘蛛在距离相关页面集较远搜索时易迷失方向[6];忽略了半结构文档所蕴涵的许多信息;评价的准确性依赖对主题关键字集的选择和构建[7]。基于未来价值的评价算法利用Web上信息资源分布的某种程度的相似性,先对网络蜘蛛进行训练,使其具备一些经验信息,对未来搜索具有一定的倾向性,目前代表性的方法是基于巩固学习的搜索策略[8],这类搜索策略能发掘链接文本中隐含的结构信息,但其预测能力有限,且这种离线训练方式需要选择典型站点或种子集,加重了用户的负担,更重要的是搜索时不灵活,搜索不集中,容易引起主题漂移。考虑到采用单一评价方法不能有效预测链接的真实价值,近年来有学者提出了基于综合价值评价的搜索策略,如文献[9]综合了基于内容和链接结构的评价方法,提出了混合评价机制;文献[10]提出了结合模拟退火的启发式搜索算法来调节立即回报价值和未来回报价值的信任度比例;文献[11]报告了一种改进遗传算法来动态调整两种策略的权重,这些算法的实验表明采用基于综合价值评价的搜索策略可有效提高搜索效率。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017