互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于DOM树结构的Blog网页自动识别张 程 陈自郁 古 平 杨瑞龙



  摘要:针对当前Internet中大量出现的博客网页,通过分析博客网页自身的结构特点和技术特征,结合网页的DOM节点特性,提出了基于DOM树分析和模式匹配的博客网页自动识别算法,并通过实验对本算法进行了验证,指出需进一步完善的研究内容和方向。
  关键词:博客网页;文档对象模型结构分析;特征发现
  中图分类号:TP391文献标志码:A
  文章编号:1001-3695(2008)05-1489-03
  
  博客,即Blog或Weblog。这一词源于WebLog(网络日志)的缩写,是一种网络个人信息的发布形式。一个Blog其实就是一个网页,通常是由简短并且经常更新的文章所构成;在文章中可以插入超链接、电子邮件、图像、动画、电影、代码、引用等资源,这些张贴的文章又都是按照年份和日期进行排列的。应该说,博客是一个个人性与公共性相结合的媒介,它充分利用了网络双向互动、超文本链接、动态更新、覆盖范围广的特点。其精髓不是表达个人思想或是记录个人的日常经历,而是从个人的角度来精选和链接互联网上最具有价值的信息、知识与资源,为他人提供共享资源。现在,人们以博客来共享思想与资源,并且进行相互学习的行为已经变得越来越普遍。博客不仅仅是一个流行的媒体表达工具,其内容更是成为了人们认知世界的窗口。近年来,博客的数量正在以每六个月翻一番的速度快速膨胀。Technorati的报告表明,超过11%的Internet用户是博客的读者,并且每天有超过7万的新博客在诞生,同时,每天全球有2 000~2 400万个博客网页在更新。如此大规模和快速增长的趋势,使得对于博客内容的分析和管理变得愈加重要。而作为博客内容分析和管理的第一步,首先要能够自动化地将博客网页与其他传统网页相区分,以便于后续的内容分析和管理工具能够更为有针对性地进行分析处理。本文的主要研究就是从Internet中自动进行博客网页类型的识别。
  
  1博客与传统网页的特性差异
  
  1.1博客的基本特征和功能要素
  因为商业和技术发展以及定位的不同,Internet上的博客网站在形式、内容、功能和排版布局等方面均有很大的差异。但是,任何一个博客网站都共同拥有以下五条基本特征和功能要素。只有具备了这样的基本功能特征,才认为其是一个博客网站,也才能成为本文研究的对象。
  1)RSS技术——聚合RSS是一种技术规范的简称,是一种遵循W3C RDF规范的XML格式,是一种多用途、可扩展的元数据描述及联合推广格式。它允许互联网站点制作人员为内容整合客户端提供选择性的、汇总过的Web内容。
  2)Trackback技术——引用通告Trackback最早是Movable上的功能,后来成为Blog的标准配置,它是一种将全世界无数个Blog连接起来的功能。通过Trackback,用户可以在自己的Blog上就别人发表的某篇文章作评论和延伸,并通知对方引用了其文章中的内容。只要对方的Blog也支持Trackback,在发布自己的文章时,将同时向对方Blog发出一个Trackback ping,向刊载被评论文章的服务器发送用户写的Blog的地址、标题和部分征文。这样当其他人浏览那篇文章时,就能够看到用户的部分评论和正文,感兴趣的话他们还可以通过链接阅读用户评论的详细内容。同样,别人也可以使用Trackback功能对用户Blog中的某篇文章加以评论,在该文章中留下相应的引申链接。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017