互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于Web日志的个性化搜索引擎模型的发现


□ 鲍 钰

  (华东师范大学 软件学院 上海 200062)
  
  摘 要:个性化搜索是指同样的关键字对不同的人返回其感兴趣的搜索结果。对于不同的用户个体,同样的关键字可能有不同含义,如关键字“apple”被爱好音乐的人士理解为Apple iPod,但也会被健康饮食的人士理解为apple fruit。每次用户搜索关键字的过程,都会被记录在网站服务器的后台日志中。通过若干挖掘算法,将Web原始日志信息进行用户识别,会话分组后,提取单一用户多次会话中的搜索关键字关联规则,为实现个性化搜索引擎提供参考。
  关键词:Web日志;个性化搜索;单用户搜索关键字关联规则发现算法
  中图分类号:TP311文献标志码:A
  文章编号:1001-3695(2009)05-1806-04
  
  Discover personalized search engine model by mining Web logs
  BAO Yu
  (Software Engineering Institute East China Normal University Shanghai 200062 China)
  Abstract:The Web site visitors’ search keywords was recorded in the Web server log files. Analyzing and exploring associations in the search keywords of single Web user could provide the personal search results.This paper discovered the single user search keywords association rule by using algorithm SUSKARD.
  Key words:Web logs; personal Web search;SUSKARD algorithm
  
  1 数据预处理
  
  原始Web日志虽然包含了大量访问者的浏览信息,但有些日志是随镶嵌在网页中的图片和脚本产生的;网络搜索引擎使用的Web蜘蛛、软机器人或智能代理也会产生访问日志。这些日志对分析用户的访问情况都是无用的,应该过滤掉。大多数情况,只有日志中HTML或ASP文件与用户会话相关。一般不会显示请求页面上的图形文件,它们是根据HTML的超文本引用标志自动下载的,这些日志与分析用户的行为模式也没有任何关系,所以通过检查URL的后缀,将日志中文件的后缀名为GIF、JPEG、JPG、gif、jpeg、jpg和map的项删除。除了删除上面列出的无关项外,还应当删除露宿者数据。所谓的露宿者是偶尔访问站点且逗留时间极短的用户,这些数据对挖掘过程没有什么贡献,所以在数据净化阶段也要删除露宿者Web log中一般至少包括如下字段:每个访问者的IP地址和域名;访问的日期和时间;访问的页面名称;访问请求是否成功;下载文件的大小;引导访问者来到本站点的URL;访问者使用的浏览器和操作系统,等等。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017