互联网 qkzz.net
全刊杂志网:首页 > 大学学报 > 文章正文
刊社推荐

一种基于词间关联规则挖掘的查询扩展方法


□ 黄名选 黄发良

  [摘 要]针对现有信息检索系统中存在的词不匹配问题,提出一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索系统性能,具有很高的应用价值。
  [关键词]查询扩展 关联规则 局部反馈 信息检索
  [分类号]TP391
  
  1 引 言
  
  查询扩展是提高和改善信息检索性能的核心技术之一,指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词或者词组添加到原查询,得到比原查询更长的新查询,然后再次检索文档,以改善检索系统的查全率和查准率,弥补用户查询信息不足的缺陷。传统的查询扩展技术主要有全局分析的、局部分析的查询扩展。全局分析的查询扩展是对全部文献中的词或词组进行相关分析,计算每对词或词组间的关联程度,将与用户查询关联程度较高的词或者词组加入原查询生成新查询,其主要技术有全局聚类算法、潜在语义索引(LSI)和相似性词典等。基于局部分析的查询扩展主要是利用初检文档中与原查询最相关的n篇文档作为扩展词的来源,主要有局部反馈的、用户相关反馈的和基于局部上下文分析的查询扩展等。
  本文从数据挖掘的角度研究查询扩展,提出一种基于词间关联规则挖掘的查询扩展算法,该算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索的查全率和查准率,与未进行查询扩展时比较,采用本文查询扩展算法后,平均准确率提高了13.34%,与传统的局部上下文分析查询扩展算法比较,其平均准确率提高了4.87%。
  
  2 基于词间关联规则的查询扩展算法
  
  2.1算法基本思想
  首先对用户查询采用传统的向量空间模型检索算法(即tf*idf算法)对文档集初检,然后,对局部前列初检文档进行词间关联规则挖掘,提取含有原查询项的关联规则构建规则库,从库中提取扩展词添加到原查询中构建新查询,实现查询扩展。
  
  2.2 面向查询扩展的词间关联挖掘及其剪枝策略
  在向量空间模型中,将文档视为事务,将语词看作是事物项,即特征项,则可以运用关联规则挖掘算法对基于向量空间模型的文本数据库进行词间关联规则挖掘。查询扩展的核心问题是如何找到与原查询相关的扩展词。针对查询扩展的特点,我们在文献的关联规则挖掘算法基础上给出了面向查询扩展的词间关联规则挖掘的基本思想,即:用文献的挖掘算法对文本数据库只挖掘含有原查询项的词间关联规则,让候选项集减少到最低程度,提高挖掘效率。为此,在原算法的剪枝策略基础上,增加两种剪枝策略:一是将频度为O的候选项集剪掉,因为频度为O的候选项集不可能成为频繁项集,二是从候选2_项集开始,将剪掉不含原查询项的候选项集,只保留含有原查询项的候选项集。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《图书情报工作》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文
关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017