互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

一种新颖的混合语音检索算法



  摘要:提出了一种新颖的混合语音检索算法。利用ICA的盲分离特性,将包含两个人声音的混合语音分离成只含一个人的单一语音,以分离出来的单一语音为新样本建立新的语音库,并与基于混合语音的语音库建立链接关系。查询时,利用DTW技术进行匹配检索,实现了基于混合语音的检索功能。实验表明该方法能够在混合语音中查询到用户所要求的记录。
  关键词:混合语音; 语音检索; 独立分量分析; Mel频率倒谱系数; 动态时间归整
  中图分类号:TP301文献标志码:A
  文章编号:1001-3695(2008)05-1349-03
  
  常规的信息检索(IR)研究主要是基于文本,如人们已经非常熟悉的诸如Yahoo和Google等搜索引擎[1,2]。基于文本的信息检索技术经过多年的发展已成为较成熟的技术,将传统文本检索技术应用于多媒体信息的检索当中,利用多媒体的外部特征在一定程度上可以满足用户的检索要求[3~5]。但基于多媒体外部特征的检索方法很难揭示多媒体信息的内在内容,并不能表达多媒体之间的语义关系。基于文本描述的方法虽然可以利用文字对多媒体信息的内容进行描述,但由于图像和音频具有丰富的内涵,并且每一种媒体数据还有些内容难以用字符来描述,如图像的纹理、视频中的运动、声音中的音调等。另外,多媒体形式的多元化和特征的多维性,使不同的人因个人的知识、理解不同有所差异。在对多媒体数据进行索引时,往往带有很大的人为主观性,在许多情况下仅有几个关键词难以充分描述多媒体的特征。这样就使得人们在对多媒体检索的实际应用中,不仅要求检索系统能对图像、视频和音频等媒体进行基于关键字的检索,还需要对媒体进行语义内容的分析和理解,以达到更深层次的检索,满足用户检索的需求。随着多媒体信息技术和互联网的迅速发展,基于内容的多媒体信息检索技术已越来越受到人们的关注。音频作为多媒体信息的一种,其检索技术也必将成为今后研究的一个重点课题之一。
  音频的种类包含音乐、语音、噪声,因此音频检索相应地可分为三种类型。由于数字语音信号处理的特殊性,语音检索的相关研究成果相对较少。所谓混合语音,就是语音记录中包含两个或两个以上说话人的声音。目前,一般的语音检索算法所涉及的语音记录仅仅包含单一说话人的声音。当语音为混合语音时,系统检索效率很低,甚至无法完成检索。这是因为无论是语音库中的还是待检索的语音,所提取的各种语音特征均为语音记录中所有人特征的混合,与各自本身的特征存在很大的差异,按照混合语音的特征进行检索,必会使检索发生错误。在实际的环境情况下,要求做到采集纯净的单一说话人声音是很困难的,要么夹杂着噪声,要么有其他人说话的干扰。这也是限制语音检索没有得到进一步发展,并应用到实际中的一个重要原因[6]。本文算法包含两个部分:检索数据库生成和查询。数据库生成阶段,将采集到的混合语音信号利用ICA技术进行分离,得到单一语音信号;然后将单一语音信号分离,提取MFCC特征参数,建立特征库。数据库查询阶段,对样本语音信号,即待检索语音同样提取MFCC特征参数,利用DTW算法实现检索匹配,最终输出查询结果,返回给用户,如图1所示。 ......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《计算机应用研究》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017