-
>
湖南省志(1978-2002)?铁路志
-
>
公路车宝典(ZINN的公路车维修与保养秘籍)
-
>
晶体管电路设计(下)
-
>
基于个性化设计策略的智能交通系统关键技术
-
>
德国克虏伯与晚清火:贸易与仿制模式下的技术转移
-
>
花样百出:贵州少数民族图案填色
-
>
识木:全球220种木材图鉴
语音信号增强技术及其应用 版权信息
- ISBN:9787030390622
- 条形码:9787030390622 ; 978-7-03-039062-2
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
语音信号增强技术及其应用 内容简介
本书在系统的介绍了语音基础知识的前提下,主要对当今语音知识比较热门的语音增强,对语音增强的几种方法如:谱减法及增强型谱减法语音增强,自适应语音增强,基于小波变换语音增强等方法的详尽介绍。还对语音增强的一些评价方法做了介绍,*后对语音增强系统的设计与实时实现进行了阐述。
语音信号增强技术及其应用 目录
前言
第1章 语音增强技术概述 1
1.1 语音增强研究背景 1
1.2 语音信号与语音增强 2
1.2.1 语音信号特征 2
1.2.2 语音信号信息量 3
1.2.3 噪声特征及其分类 4
1.2.4 人耳感知特性 7
1.2.5 语音增强的信号模型 8
1.3 语音增强技术的发展 10
1.4 语音增强方法分类 11
1.5 语音增强效果评价 13
1.6 语音增强技术应用 14
1.7 本书主要内容 16
参考文献 17
第2章 语音信号分析处理技术 19
2.1 语音增强预处理技术 19
2.1.1 语音信号预滤波和数字化 20
2.1.2 语音信号预加重 22
2.1.3 语音信号加窗处理 23
2.2 语音增强时域分析处理技术 28
2.2.1 短时能量及短时平均幅度分析 29
2.2.2 短时平均过零率分析 29
2.2.3 短时自相关分析 30
2.3 语音增强频域分析处理技术 32
2.3.1 短时傅里叶变换分析 32
2.3.2 短时傅里叶逆变换分析 35
2.4 语音增强同态分析处理技术 38
2.4.1 同态处理 38
2.4.2 复倒谱及倒谱 39
2.4.3 复倒谱分析 40
2.5 语音增强线性预测分析处理技术 41
2.5.1 线性预测分析 42
2.5.2 线性预测方程组 43
2.5.3 线性预测等价参数 45
2.6 基于非线性理论的语音分析处理技术 46
2.6.1 基于混沌理论的语音分析处理技术 46
2.6.2 基于分形理论的语音分析处理技术 48
2.6.3 基于神经网络的语音分析处理技术 50
2.7 语音增强噪声估计技术 53
2.7.1 基于平稳环境下的噪声估计 53
2.7.2 基于非平稳环境下的噪声估计 55
2.8 本章小结 57
参考文献 57
第3章 语音增强短时谱估计算法 59
3.1 谱相减算法 59
3.1.1 幅度谱减法 59
3.1.2 改进的幅度谱减法 61
3.1.3 功率谱减法 63
3.1.4 改进的功率谱减法 65
3.2 维纳滤波算法 67
3.2.1 维纳滤波法时域实现 67
3.2.2 维纳滤波法频域实现 69
3.2.3 改进的维纳滤波法 71
3.2.4 卡尔曼滤波法 73
3.3 *小均方误差算法 76
3.3.1 基本型*小均方误差法 76
3.3.2 对数谱*小均方误差法 78
3.4 本章小结 80
参考文献 81
第4章 语音增强自适应滤波算法 83
4.1 自适应滤波 83
4.1.1 自适应滤波算法 83
4.1.2 自适应滤波器的性能指标 84
4.1.3 *佳滤波准则 85
4.2 *速下降自适应滤波 86
4.2.1 *速下降算法 86
4.2.2 *速下降自适应滤波器的性能指标 88
4.3 *小均方自适应滤波 91
4.3.1 *小均方算法 91
4.3.2 归一化*小均方算法 95
4.3.3 *小均方滤波器的性能指标 95
4.4 *小二乘自适应滤波 98
4.4.1 *小二乘自适应滤波算法 98
4.4.2 递归*小二乘自适应滤波算法 99
4.4.3 *小二乘滤波器的性能指标 100
4.5 自适应滤波算法的改进 100
4.5.1 自适应滤波算法的时域改进 100
4.5.2 自适应滤波算法的频域改进 104
4.6 本章小结 110
参考文献 111
第5章 语音增强小波变换算法 114
5.1 小波变换分析 115
5.1.1 连续小波变换 115
5.1.2 离散小波变换 117
5.1.3 多分辨率分析与Ma11at算法 119
5.1.4 *优小波基 123
5.2 小波域语音信号增强 125
5.2.1 小波域信号增强 125
5.2.2 常用小波函数 127
5.2.3 语音增强中小波函数选取 131
5.3 小波阈值去噪法 132
5.3.1 小波阈值去噪算法原理 132
5.3.2 改进的阈值函数去噪法 137
5.4 小波模极大值去噪法 141
5.4.1 信号与噪声在小波变换各尺度上的不同传播特性 141
5.4.2 小波模极大值去噪算法原理 143
5.5 小波掩蔽去噪法 144
5.5.1 小波掩蔽去噪算法原理 144
5.5.2 改进型掩蔽去噪法 145
5.6 各种小波去噪法比较 148
5.7 本章小结 149
参考文献 150
第6章 语音增强其他优选算法 152
6.1 基于信号子空间的语音增强算法 152
6.1.1 信号子空间单通道语音增强算法 152
6.1.2 信号子空间多通道语音增强算法 154
6.2 基于盲源分离的语音增强算法 155
6.2.1 信号盲源分离 155
6.2.2 语音增强中的盲源分离 158
6.3 基于听觉掩蔽效应的语音增强算法 162
6.3.1 噪声掩蔽阈值 163
6.3.2 语音增强中的掩蔽效应 165
6.4 基于分数阶傅里叶变换的语音增强算法 167
6.4.1 分数阶傅里叶变换算法 167
6.4.2 基于分数阶域的谱减法语音增强 172
6.4.3 离散分数余弦变换自适应滤波算法 175
6.5 基于分形理论的语音增强算法 179
6.5.1 分形理论 179
6.5.2 语音增强中的分形理论 180
6.6 基于神经网络的语音增强算法 183
6.6.1 神经网络 183
6.6.2 语音增强中反向传播神经网络 184
6.6.3 语音增强中小渡神经网络自适应滤波 186
6.7 本章小结 188
参考文献 189
第7章 语音增强质量评价 192
7.1 语音质量评价 192
7.1.1 听觉系统 192
7.1.2 语音质量 194
7.1.3 语音质量评价方法 195
7.2 语音质量主观评价 195
7.3 语音质量客观评价 197
7.3.1 客观评价系统 197
7.3.2 客观评价测度 198
7.3.3 客观评价算法 207
7.4 语音质量评价算法 212
7.4.1 语音质量评价算法的实现 213
7.4.2 基于听觉模型的客观评价算法 214
7.4.3 感知语音质量评价算法 220
7.4.4 主客观评价方法的相关度 228
7.5 本章小结 229
参考文献 229
第8章 语音增强算法仿真 231
8.1 语音信号处理与仿真软件 231
8.1.1 语音编辑 232
8.1.2 语谱图生成 233
8.1.3 语音增强仿真工具 235
8.1.4 语音增强仿真准备 236
8.2 语音增强算法仿真 237
8.2.1 高斯白噪声仿真实验 237
8.2.2 粉红噪声仿真实验 243
8.2.3 工厂噪声仿真实验 247
8.2.4 算法仿真性能分析 253
8.3 熵函数*优小波基选取仿真 254
8.3.1 Shannon熵*优小波基选取仿真实验 255
8.3.2 SURE熵*优小波基选取仿真实验 264
8.3.3 thresho1d熵*优小波基选取仿真实验 269
8.3.4 算法仿真性能分析 272
8.4 小波阈值计算仿真 275
8.4.1 阈值函数的选取 275
8.4.2 阈值函数中调节因子及阈值选取 275
8.4.3 算法仿真及结果分析 277
8.5 语音增强质量评价算法仿真 280
8.5.1 分段信噪比仿真 280
8.5.2 语音感知质量评价算法仿真 284
8.5.3 算法仿真性能分析 287
8.6 本章小结 290
参考文献 290
第9章 语音增强系统设计与应用 292
9.1 基于TMS320C6416的语音增强系统硬件设计与实现 293
9.1.1 DSP处理技术 293
9.1.2 基于TMS320C6416的语音增强系统硬件结构设计 295
9.1.3 基于TMS320C6416的语音增强系统下作原理 303
9.2 基于TMS320C6416的语音增强系统软件设计与实现 307
9.2.1 语音增强系统软件设计 307
9.2.2 基于TMS320C6416的语音增强系统软件实现 308
9.2.3 基于TMS320C6416的FFT算法软件实现 313
9.3 基于TMS320C6416的语音增强系统性能测试 317
9.4 基于OMAP3平台的语音通信增强系统设计 318
9.4.1 OMAP概述 318
9.4.2 OMAP3体系结构 320
9.4.3 OMAP3软件开发平台的构建 322
9.4.4 基于OMAP3的无线语音通信系统设计 326
9.5 本章小结 336
参考文献 336
语音信号增强技术及其应用 节选
第1章 语音增强技术概述 语音是语言的声学表现,它不仅是人类交流信息*自然、*有效、*方便的手段,而且也是人类进行思维的一种依托。随着通信技术的发展,语音作为一种典型的非平稳随机信号,已经成为人们日常生活、下作中不可缺少的一部分。在语音通信过程中,不可避免地会受到来自周围环境噪声和设备内部噪声等的各种干扰,由于噪声的存在会使语音处理系统的性能恶化,因此语音增强是解决噪声污染的一种有效方法。语音增强的目的就是从被污染的语音信号中,提取尽可能纯净的语音信号,改善语音质量,使听者不觉得疲劳,同时提高语音的可懂度。 1.1 语音增强研究背景 语音增强早在20世纪60年代就受到了人们的重视,在随后的四十多年里,很多学者对这一课题进行了研究。1978年,Lim和Oppenheim提出了语音增强的维纳滤波方法;1979年,Boll提出了谱相减方法来抑制噪声;1980年,Maulay和Malpass提出了软判决噪声抑制方法;1984年,Ephraim和Malah提出了基于*小均方误差短时谱幅度估计的语音增强方法。20世纪80年代以后,随着高速DSP的发展,语音增强逐渐走向实用,同时新的语音增强方法又相继涌現,常见的语音增强方法主要有:基于*小均方(least mean square,LMS)自适应滤波的噪声抵消语音增强法、基于短时谱(short time spectrum,STS)估计的语音增强法、基于语音生成模型的语音增强法、基于梳状滤波器的谐波增强法、基于阵列话筒的语音增强法、基于听觉模型的语音增强法、基于人工神经网络的语音增强法、基于信号子空间分解的语音增强法、基于小波变换的语音增强法等。语音增强是一门涉及面很广的交叉学科,它不但与语音信号数字处理理论有关,而且涉及模式识别、数理统计、语音学等。此外,语音增强所面临的噪声形式也可能众多,因此要有效地增强语音,必须对语音和噪声特性有充分的了解。 语音信号处理技术可分为四个主要研究领域,分别是语音编码和压缩技术、语音识别技术、语音合成技术及语音增强技术。而语音增强技术可以广泛应用于语音通信领域、语音识别和语音编码系统中。尤其是近年来,语音识别技术获得突破性进展,作为人机交互的一种很自然、便捷的方式,越来越受到人们的重视。特别是在2008年北京奥运会的成功举办中,移动式语音识别和翻译系统发挥了重要作用。但是目前的语音识别系统大多工作在安静的环境下,背景噪声的引入会严重影响识别系统的性能。在低速率语音编码系统中,以较低的码速率传输语音信号能够节省大量传输带宽,而噪声的存在严重影响模型参数的提取,使得重建语音的质量急剧恶化,甚至变得完全不可懂。但通过语音增强,输入声码器信号的抗噪能力显著提高。在上述情况下,加入语音增强系统,可抑制背景噪声,提高语音通信质量;也可将语音增强系统作为预处理器,提高语音处理系统的抗干扰能力,稳定系统性能。 语音增强是从噪声背景中提取有用的语音信号,抑制、降低噪声的干扰。语音增强的目的主要是改进语音质量,尽可能地消除背景噪声,提高信噪比(signal to noise ratio,SNR),同时提高语音自然可懂度和说话人的可辨度。噪声来源取决于实际的应用环境,因而噪声特性可以说变化无穷,所以在实际应用时,要根据具体的噪声情况和特定环境,选用不同的语音增强方法,才能达到*好的语音增强效果。 随着数字信号理论的成熟,语音增强技术已发展成为语音信号处理的一个重要分支。近年来,随着计算机和DSP技术的发展和成熟,语音增强的实时实现成为可能,可广泛应用于无线电话会议、手机、娱乐系统、多媒体应用、智能家电、场景录音和军事窃听等领域。在实际应用中,这些系统在其前端加上语音增强系统作为预处理器,以提高其抗干扰能力,稳定其系统性能。因此语音增强技术可以广泛应用于各种语音信号处理领域中,本书所研究的语音增强技术理论、应用与实现有着重要的现实意义。 1.2 语音信号与语音增强 1.2.1 语音信号特征 由于语音的生成过程与发音器官的运动过程密切相关,而且人类发音系统在产生不同语音时的生理结构并不相同,因此使得产生的语音信号是一种时变的、非平稳的随机信号,例如,声道面积随着时间和距离而改变,气流速率随着声门处压力变化而变化等。但是由于人类发声器官变化速率具有一定的限度,而且远小于语音信号的变化速率,可以认为人的声带、声道等特征在一定的时间内基本不变。因此假定语音信号是短时平稳的,即语音信号的某些物理特性和频谱特性在10~30ms的时间段内是近似不变的,具有相对的稳定性,这样就可以运用分析平稳随机过程的方法来分析和处理语音信号,在语音增强中正是利用了语音信号短时谱的平稳性。 语音是由人的发音器官发出来的、具有一定语义的声音。语音中的元音是在发音过程中,气流通过口腔不受阻碍发出的音,每个元音的特点是由声道的形状和尺寸决定的。语音中的辅音是指在发音的时候,以肺里出来的气,经过口腔或者鼻腔时受到阻碍而形成的音,根据声带是否振动又可分为清辅音与浊辅音两种:如果声带不振动,发出的辅音叫做清辅音,简称清音,在汉语音学中也叫噪声;声带振动发出的辅音叫做浊辅音,也叫浊音。在语音信号处理中基本上就分为清音和浊音两大类。清音和浊音在特性上有明显的区别,清音没有明显的时域和频域特性,看上去类似于白噪声,并具有较弱的振幅;而浊音在短时谱上有明显的特征,具有以下两个特点: (1)在时域上呈现出明显的周期性,这是因为浊音的激励源为周期脉冲气流。 (2)频谱中有明显的几个凸起点,它们的出现频率与声道的谐振频率相对应。这些凸起点称为共振峰,其频率称为共振峰频率。共振峰按频率由低到高排列为**共振峰、第二共振峰,依次类推。 在语音增强中可以利用浊音所具有的明显的周期性来区别和抑制非语音噪声,而清音由于类似于白噪声,与宽带平稳噪声很难区分。 语音信号可以用统计分析特性来描述。由于语音是非平稳的随机过程,所以长时间的时域统计特性在语音增强的研究中意义不大。语音信号短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,根据中心极限定理,才能近似认为其具有高斯分布。实际应用时只能将其看做是在有限帧长下的远似描述。在宽带噪声污染的语音信号增强中,可将这种假设作为分析的前提。 1.2.2 语音信号信息量 在语音增强技术中,语音信号到底包含多少信息量,需要多少比特才能被无失真地表示出来,这是一个很复杂的问题,涉及对信号失真的评价。目前常用的有三种评价方法,其中两种是由Flanagan提出的,另一种是由Johnston提出的,它们是建立在以下三种不同的失真评价基础之上的: (1)语音信号的信噪比; (2)接收语音信号时,信号由听觉外围处理之后,人们在主观上能够感觉到的失真; (3)人在接收语音信号时,不正确接收音素的数目和正确接收音素的数目之比。 在上述三种情况下,实际所获得的比特率首先选择能够接受的失真等级,然后计算该失真等级所需的理论比特率。在第三种测量音素失真的方法下,可以将接受的失真级设置为零。如果所有的音素都能正确传送,那是所期望的*好性能。假设相邻的音素之间不出现相关,则平均信息速率很容易计算。按照Shannon信息理论,每一个符号需要的平均比特数或信息量I如下所示: (1-1) 式中,pi为每一个符号i出现的概率;I为信息量。英语有42个音素(符号),汉语的音素有48个,其中,辅音22个,单元音13个,复元音13个。正常情况下,说话速率大约是每秒钟10个音素。利用音素出现的相对概率表,能够计算出每一个符号的信息量大约是5bit,得到的全部信息速率大约是50bit/s。其中,自然的寂静也包含在这个比特速率内。而系统仅仅传送音素序列,缺少发音人声音的个性特征,也就是声带的形状和对声道的描述。另一方面,相邻音素之间的相关也被忽略了。基于这些因素的考虑,可以把这一估计作为语音信息所需的比特率下限,或者人们感知语音信号的*低要求。 另外,采用**种方法,将语音信号的信噪比作为失真评价,在不考虑编码器结构的情况下,可以得到语音信号信息速率的上限。在具有电话带宽的信号中,估计*大信息速率时,必须考虑合理的噪声等级。 假设P是语音信号的平均功率,W是语音信号的带宽,G是附加的噪声信号功率,并假设附加的噪声信号是高斯白噪声,C表示语音所需*大的信息速率,根据Shannon理论,对于包含附加噪声G的语音信号,C可由下式计算: (1-2) 式中,如果语音信号的带宽W为3.5kHz,信噪比(SNR=101gP/G)为30dB,则它所包含的*大信息速率力35kbit/s。这是语音所需的信息速率上限。公式(1-2)中,对于语音信号所存在的短期相关和长期相关,都没有考虑。而信号中所存在的结构性相关,则意味着冗余度,它能够在传输之前被去除,从而降低信息速率。 第二种估计方法包含了人的感知和理解;这是因为声音信号由人的听觉器官处理以后,其信息速率降低了。声音信号的某些特点,会由于人听觉系统的掩蔽效应而不被注意到。例如,在一个特有频率上的低幅度纯音,可以被一个靠近该频率更响的纯音掩蔽掉。去除人们在感觉上不能区分的特点以后,再来考虑信号的信息速率是比较恰当的。将理解失真评价的阈值设置为零,即听不到失真,则需首先计算语音信号的傅里叶变换,然后按频带进行计算,要求的量化器步长应使量化噪声在掩蔽阈值以下。掩蔽阈值和频带宽度都是建立在听觉系统基础之上的,所得到的信息速率估计称为理解熵。对于连续语音,理解熵约为10kbit/s,相当于执行透明的语音编码所需的平均速率。因此人的感知和理解在语音增强技术中有很重要的作用。 1.2.3 噪声特征及其分类 噪声是指一切干扰人们休息、学习和工作的声音,即人们不需要的声音。此外,杂乱的振幅和频率,断续或统计上无规律的声振动也称为噪声。噪声来源于实际的应用环境,因而其特性复杂。对噪声进行划分的标准很多,各种分类方法的分析角度不同。 根据噪声对语音频谱的干扰方式不同,可以把噪声主要分为加性噪声和乘性噪声。 1)加性噪声 加性噪声是指当噪声对语音的干扰表现为两者信号在时域进行相加时,该噪声被称为加性噪声,显然噪声和语音在频域也为相加关系。 实际环境中背景噪声可以看成加性噪声,如风扇的声音、汽车引擎声、周围人说话声等。加性噪声是对背景噪声一种比较贴切的表述。麦克风等声音采集设备在正常工作的范围内,可以近似看成是一个线性系统,即产生信号的幅度和声强成正比。从能量角度看背景噪声和语音的声强是相叠加关系,两者对麦克风共同作用所形成的带噪语音信号等于各信号之和。严格来说背景噪声和语音不可避免地存在非线性作用,但这不是带噪语音的主要成分。由于背景噪声的广泛存在性,针对这类噪声的研究已成为语音增强领域的一个重点,本书主要研究的也是加性噪声。 2)乘性噪声 乘性噪声是指噪声和语音在频域是相乘的关系,在时域和语音则是卷积的关系,因此也称为卷积噪声。在实际应用中乘性噪声主要体现为在语音采集、麦克风传输中电话信道和无线信道的频率选择特性。乘性噪声可以通过某种变换如同态滤波,转变为加性噪声,从而可以用加性噪声的方法来处理乘性噪声。 根据噪声统计特性随时间变化的程度不同,可将噪声分为周期噪声、脉冲噪声、缓变噪声和平稳噪声。 1)周期噪声 发动机产生的干扰、市电干扰都是周期噪声。它的特点是在频域上具有许多离散的线谱。这种周期性噪声可以用梳状滤波器加以滤除,用数字信号处理的方法来实现。实际环境中产生的周期性噪声并非简单的只含线性谱分量,而是由许多窄带谱组成。该类型噪声往往是时变的,并与语音信号频谱重叠,必须采用自适应滤波的方法才有可能自动识别和区分噪声。 2)脉冲噪声
-
工业机器人操作与编程
¥19.6¥58 -
扫描电镜和能谱仪的原理与实用分析技术(第2版)
¥137.2¥188 -
北京通信电信博物馆
¥21.8¥46 -
等离子体蚀刻及其在大规模集成电路制造中的应用(第2版)
¥111.8¥149 -
现代微波技术基础
¥14.5¥21