前言
第1章 智能语音处理导论1
11 概述1
12 经典语音处理2
121 语音处理的发展2
122 语音基本表示方法3
123 语音处理基本方法3
124 经典语音处理方法的不足4
13 智能语音处理5
131 智能语音处理的基本概念5
132 智能语音处理的基本框架5
133 智能语音处理的基本模型6
14 语音处理的应用7
141 语音处理的传统应用领域8
142 语音处理的新应用领域11
15 小结14
参考文献14
第2章 稀疏和压缩感知15
21 引言15
22 稀疏和稀疏表示16
221 稀疏16
222 稀疏表示18
23 冗余字典19
231 基本概念19
232 字典学习20
233 字典学习算法22
234 原子选择算法25
24 压缩感知27
241 基本概念27
242 压缩感知模型29
243 观测矩阵30
244 信号重构32
25 小结33
参考文献33
第3章 隐变量模型36
31 引言36
32 高斯混合模型36
321 基本概念37
322 GMM参数估计37
33 隐马尔可夫模型39
331 基本概念39
332 HMM关键问题42
34 高斯过程隐变量模型48
341 基本模型48
342 GPLVM的理论来源49
343 GPLVM模型训练50
35 小结51
参考文献51
第4章 组合模型52
41 引言52
42 主成分分析53
421 基本模型53
422 求解算法54
43 非负矩阵分解56
431 基本模型56
432 求解算法57
433 NMF与其他数据表示模型的关系58
44 鲁棒组合模型60
441 组合模型的鲁棒性分析61
442 鲁棒主成分分析61
443 鲁棒非负矩阵分解63
45 小结64
参考文献64
第5章 人工神经网络和深度学习65
51 引言65
52 神经网络基础66
521 神经元模型66
522 浅层神经网络67
523 深度神经网络68
53 深度学习69
531 基本概念和形式69
532 深度网络的学习方法70
54 深度神经网络的典型结构71
541 深度置信网络71
542 自动编码器与栈式自动编码器72
543 卷积神经网络74
544 循环神经网络75
545 生成式对抗网络77
55 小结79
参考文献79
第6章 语音压缩编码81
61 引言81
62 基于字典学习的语音信号压缩感知82
621 语音信号的稀疏性82
622 语音在常见变换域的稀疏化83
623 基于K-L展开的语音非相干字典84
624 基于K-L非相干字典的语音压缩重构87
625 实验仿真与性能分析88
63 基于梅尔倒谱系数重构的语音压缩编码93
631 基于梅尔倒谱分析的抗噪语音编码模型94
632 基于稀疏约束的梅尔倒谱合成96
633 梅尔倒谱系数的量化算法99
634 实验仿真与性能分析103
64 基于深度学习的语音压缩编码107
641 基于DAE的幅度谱编码和量化107
642 基于DAE的低速率语音编码110
643 实验仿真与性能分析111
65 小结113
参考文献113
第7章 语音增强115
71 引言115
72 语音增强技术基础116
721 语音增强的估计参数116
722 智能语音增强的语音特征117
723 性能评价118
73 基于非负矩阵分解的语音增强120
731 基本模型121
732 基于不相交约束非负矩阵分解的语音增强122
733 基于CNMF字典学习的语音增强127
74 基于深度学习的语音增强136
741 基于听觉感知加权的深度神经网络语音增强方法136
742 基于听觉感知掩蔽的深度神经网络语音增强方法141
75 小结151
参考文献152
第8章 语音转换155
81 引言155
82 语音转换基本原理155
83 语音转换模型与评价156
831 语音分析/合成模型156
832 语音参数的选择157
833 时间对齐157
834 转换模型和规则158
835 转换性能评价159
84 基于非负矩阵分解的谱转换160
841 概述160
842 基于卷积非负矩阵分解的谱转换161
843 声道谱转换效果164
85 基于深度神经网络的谱转换168
851 深度学习驱动下的语音转换168
852 面向谱转换的神经网络模型选择168
853 基于BLSTM和神经网络声码器交替训练的语音转换171
86 小结176
参考文献176
第9章 说话人识别178
91 引言178
92 说话人识别基础179
921 说话人识别系统框架179
922 典型的说话人识别模型180
93 基于i-vector的说话人识别及其改进181
931 基于i-vector的说话人识别概述181
932 用于提高i-vector鲁棒性的帧加权方法182
933 实验结果与分析187
94 基于深度神经网络的说话人识别187
941 基于深度神经网络的说话人识别概述187
942 基于对比度损失函数优化说话人矢量189
943 实验结果与分析191
95 说话人识别系统的攻击与防御192
951 攻击和防御的背景192
952 说话人识别系统的攻击方法192
953 说话人识别攻击的检测方法194
954 实验结果与分析196
96 小结196
参考文献197
第10章 骨导语音增强200
101 引言200
102 骨导语音增强基础201
1021 骨导语音的产生与特性201
1022 骨导语音盲增强的特点202
1023 骨导语音盲增强的典型方法203
103 基于长短时记忆网络的骨导语音盲增强205
1031 骨导/气导语音的谱映射206
1032 基于深度残差BLSTM的骨导语音盲增强方法207
1033 实验仿真及性能分析211
104 基于均衡-生成组合谱映射的骨导语音盲增强215
1041 均衡法215
1042 基于均衡-生成组合谱映射的骨导语音盲增强方法216
1043 实验仿真及性能分析218
105 小结222
参考文献223
第11章 智能语音处理展望224
111 智能语音处理的未来224
112 有待解决的关键技术225
1121 语音识别226
1122 语音合成228
1123 语音增强229
1124 语音处理中的安全问题230
113 小结230
参考文献230
缩略语232