互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于TreeMiner算法的XML文档结构相似度量方法


□ 阎红灿 王淑芬 朱晓亮 李敏强 刘保相

  (1.天津大学 管理学院 天津 300072; 2.河北理工大学 a.理学院; b.计算中心 河北 唐山 063009)
  
  摘 要:提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题。该方法架构了一个新的检索模型—频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner 算法进行了改进,使其更适合大文档数据集的结构挖掘。实验结果表明,该方法具有很高的计算精度和准确率。
  关键词:频繁结构向量模型; 嵌入子树; 频繁子树; 结构挖掘
  中图分类号:TP311文献标志码:A
  文章编号:1001-3695(2009)05-1706-04
  
  Method of similarity measures for XML documents structure
  based on TreeMiner algorithm
  YAN Hongcan1,2a WANG Shufen2b ZHU Xiaoliang2b LI Minqiang1 LIU Baoxiang2a
  (1.School of Management Tianjin University Tianjin 300072 China; 2. a.College of Sciences b.Computing Center Hebei Polytechnic University Tangshan Hebei 063009 China)
  Abstract:This paper proposed a novel way of similarity measures for XML documents structure based on TreeMiner algorithm and resolved the high costs in distance editing and the problems of repetiition of labels in path matching designed. In this way a new research model:frequent structure vector model (FSVM) derived the expression of document structure vector and weight function and constructed the calculate formula to measure similarity of the two documents. In order to improve the efficiency of mining frequency subtrees in a forest reformed the algorithm TreeMiner from data structure and miner procedure to fit to minning structure in large documents.The testing results show that this method acquires very high precision and veracity. ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017