数字语音处理理论与应用

定　价：¥128.00

作　者：	（美）Lawrence R. Rabiner（劳伦斯 R. 拉比纳），（美）Ronald W. Schafer（罗纳德 W. 谢弗）
出版社：	电子工业出版社
丛编项：
标　签：	电子通信工业技术通信

购买这本书可以去

ISBN：	9787121275906	出版时间：	2015-11-01	包装：	平塑
开本：		页数：	664	字数：

内容简介

　　本书是作者继1978年出版的经典教材《语音信号的数字处理》之后的又一著作，全书除有简练精辟的基础知识介绍外，系统讲解了近30年来语音信号处理的新理论、新方法和在应用上的新进展。全书共14章，分四部分：第一部分介绍语音信号处理基础知识，主要包括数字信号处理基础、语音产生机理、（人的）听觉和听感知机理，以及声道中的声传播原理；第二部分介绍语音信号的时、频域表示和分析；第三部分介绍语音参数估计方法；第四部分介绍语音信号处理的应用，主要包括语音编码、语音和音频信号的频域编辑、语音合成、语音识别及自然语言理解。

作者简介

　　刘加，清华大学教授，主要从事数字信号处理与数字语音信号处理的教学与研究工作，发表论文多篇，在教学与研究方面获得多面荣誉。主要研究方向为信号与信号处理，语音通信等。

图书目录

目录第1章数字语音处理介绍 1 1.1 语音信号 2 1.2 语音堆 5 1.3 数字语音处理的应用 6 1.3.1 语音编码 6 1.3.2 文语转换合成 7 1.3.3 语音识别和其他模式匹配问题 7 1.3.4 其他语音应用 8 1.4 参考文献评论 9 1.5 小结 10 第2章数字信号处理基础回顾 11 2.1 引言 11 2.2 离散时间信号与系统 11 2.3 信号与系统的变换表示 13 2.3.1 连续时间傅里叶变换 14 2.3.2 z变换 14 2.3.3 离散时间傅里叶变换 16 2.3.4 离散傅里叶变换 17 2.3.5 DTFT的采样 18 2.3.6 DFT的性质 19 2.4 数字滤波器基础 20 2.4.1 FIR系统 20 2.4.2 FIR滤波器设计方法 21 2.4.3 FIR滤波器实现 23 2.4.4 IIR系统 23 2.4.5 IIR滤波器设计方法 23 2.4.6 IIR系统的实现 24 2.4.7 关于FIR和IIR滤波器设计方法的说明 27 2.5 采样 27 2.5.1 采样原理 27 2.5.2 语音和音频波形的采样率 28 2.5.3 改变采样信号的采样率 29 2.5.4 抽取 29 2.5.5 插值 32 2.5.6 非整数采样率变化 33 2.5.7 FIR滤波器的优点 34 2.6 小结 34 习题 34 第3章人类语音产生基础 42 3.1 引言 42 3.2 语音产生过程 42 3.2.1 语音产生机理 42 3.2.2 语音特征与语音波形 46 3.2.3 语音生成的声学理论 49 3.3 语音的短时傅里叶表示 50 3.4 声音语音学 53 3.4.1 元音 55 3.4.2 双元音 60 3.4.3 声音的辨音特质 60 3.4.4 半元音 61 3.4.5 鼻音 62 3.4.6 清擦声 64 3.4.7 浊擦音 65 3.4.8 浊塞音 67 3.4.9 清塞音 67 3.4.10 破擦声和耳语音 69 3.5 美式英语音素的辨音特质 70 3.6 小结 70 习题 71 第4章听觉、听感知模型和语音感知 80 4.1 引言 80 4.2 语言链 80 4.3 解剖学和耳的功能 82 4.3.1 基底膜机理 84 4.3.2 临界频带 85 4.4 声音的感知 85 4.4.1 声音的强度 87 4.4.2 人的听觉范围 87 4.4.3 响度级 90 4.4.4 响度 91 4.4.5 音高 91 4.4.6 掩蔽效应——音调 92 4.4.7 掩蔽效应——噪声 93 4.4.8 时域掩蔽效应 94 4.4.9 语音编码中的掩蔽效应 95 4.4.10 参数鉴别——JND 95 4.5 听感知模型 96 4.5.1 感知线性预测 96 4.5.2 Seneff听感知模型 97 4.5.3 Lyon听感知模型 99 4.5.4 整体区间直方图方法 100 4.5.5 听感知模型小结 101 4.6 人类语音感知实验 101 4.6.1 噪声中的声音感知 102 4.6.2 噪声中的语音感知 103 4.7 语音质量和可懂度测量 104 4.7.1 主观测试 105 4.7.2 语音质量的客观测量 106 4.8 小结 107 习题 107 第5章声道中的声音传输 109 5.1 语音产生的声学原理 109 5.1.1 声音传播 109 5.1.2 例子：均匀无损声管 110 5.1.3 声道中损耗的影响 114 5.1.4 嘴唇的辐射影响 117 5.1.5 元音的声道传输函数 120 5.1.6 鼻腔耦合的影响 123 5.1.7 声道中声音的激励 123 5.1.8 基于声学理论的模型 127 5.2 无损声管模型 128 5.2.1 级联无损声管中的波形传播 128 5.2.2 边界条件 130 5.2.3 与数字滤波器的关系 134 5.2.4 无损声管模型的传输函数 137 5.3 采样语音信号的数字模型 141 5.3.1 声道建模 141 5.3.2 辐射模型 143 5.3.3 激励模型 144 5.3.4 完整模型 144 5.4 小结 146 习题 146 第6章语音信号处理的时域方法 153 6.1 引言 153 6.2 语音的短时分析 154 6.2.1 短时分析的通用框架 156 6.2.2 短时分析中的滤波和采样 156 6.3 短时能量和短时幅度 159 6.3.1 基于短时能量的自动增益控制 160 6.3.2 短时幅度 162 6.4 短时过零率 163 6.5 短时自相关函数 169 6.6 修正短时自相关函数 173 6.7 短时平均幅度差分函数 176 6.8 小结 177 习题 177 第7章频域表示 183 7.1 引言 183 7.2 离散时间傅里叶分析 184 7.3 短时傅里叶分析 186 7.3.1 DTFT解释 187 7.3.2 DFT实现 188 7.3.3 加窗对分辨率的影响 188 7.3.4 关于短时自相关函数 193 7.3.5 线性滤波解释 193 7.3.6 时域和频域中的采样率 197 7.4 频谱显示 199 7.5 合成的重叠相加法 206 7.5.1 精确重建的条件 206 7.5.2 合成窗的应用 211 7.6 合成的滤波器组求和方法 212 7.7 时间抽取滤波器组 217 7.7.1 通用FBS抽取系统 218 7.7.2 最大抽取滤波器组 221 7.8 双通道滤波器组 222 7.8.1 正交镜像滤波器组 223 7.8.2 QMF滤波器组的多相结构 225 7.8.3 共轭正交滤波器 225 7.8.4 树形结构滤波器组 226 7.9 使用FFT实现FBS方法 228 7.9.1 FFT分析技术 228 7.9.2 FFT合成技术 230 7.10 OLA再论 232 7.11 修正的STFT 233 7.11.1 乘性修正 233 7.11.2 加性修正 236 7.11.3 时间标度修正：相位声码器 237 7.12 小结 242 习题 242 第8章倒谱和同态语音处理 255 8.1 简介 255 8.2 卷积同态系统 256 8.2.1 DTFT表示 257 8.2.2 z变换表示 260 8.2.3 复倒谱的性质 260 8.2.4 复倒谱分析实例 262 8.2.5 最小和最大相位信号 264 8.3 语音模型的同态分析 265 8.3.1 浊音模型的同态分析 266 8.3.2 清音模型的同态分析 271 8.4 计算语音的短时倒谱和复倒谱 273 8.4.1 基于离散傅里叶变换的计算 273 8.4.2 基于z变换的计算 276 8.4.3 最小相位和最大相位信号的递归计算 278 8.5 自然语音的同态滤波 279 8.5.1 语音短时倒谱分析模型 280 8.5.2 使用多项式根的短时分析实例 281 8.5.3 应用DFT的浊音分析 282 8.5.4 最小相位分析 286 8.5.5 应用DFT的清音分析 287 8.5.6 短时倒谱分析小结 289 8.6 全极点模型的倒谱分析 290 8.7 倒谱距离度量 291 8.7.1 线性滤波补偿 292 8.7.2 加权倒谱距离度量 292 8.7.3 群时延频谱 293 8.7.4 mel频率倒谱系数 294 8.7.5 动态倒谱特征 296 8.8 小结 296 习题 296 第9章语音信号的线性预测分析 301 9.1 引言 301 9.2 线性预测分析的基本原理 302 9.2.1 线性预测分析方程的基本公式 304 9.2.2 自相关法 305 9.2.3 协方差法 307 9.2.4 小结 308 9.3 模型增益的计算 309 9.4 线性预测分析的频域解释 311 9.4.1 线性预测短时频谱分析 311 9.4.2 均方预测误差的频域解释 313 9.4.3 模型阶数p的作用 316 9.4.4 线性预测语谱图 318 9.4.5 与其他谱分析方法的对比 320 9.4.6 选择性线性预测 321 9.5 LPC方程组的解 322 9.5.1 Cholesky分解 322 9.5.2 Levinson-Durbin算法 325 9.5.3 格型公式及其解 328 9.5.4 计算需求比较 334 9.6 预测误差信号 335 9.6.1 归一化均方误差的其他表示法 338 9.6.2 LPC参数值的实验评估 339 9.6.3 归一化误差随帧位置的变化 342 9.7 LPC多项式A(z)的一些性质 344 9.7.1 预测误差滤波器的最小相位性质 344 9.7.2 PARCOR系数和LPC多项式的稳定性 344 9.7.3 最佳LP模型根的位置 345 9.8 线性预测分析与无损声管模型的关系 348 9.9 LP参数的替代表示 351 9.9.1 预测误差多项式的根 351 9.9.2 全极点系统的冲激响应 352 9.9.3 冲激响应的自相关 352 9.9.4 倒谱 352 9.9.5 预测器多项式的自相关系数 353 9.9.6 PARCOR系数 353 9.9.7 对数面积比系数 353 9.9.8 线性谱对参数 355 9.10 小结 357 习题 357 第10章语音参数的估计算法 368 10.1 引言 368 10.2 中值平滑和语音处理 369 10.3 语音背景/静音的鉴别 373 10.4 浊音/清音/静音检测的一种贝叶斯方法 378 10.5 基音周期估计（基音检测） 383 10.5.1 理想的基音周期估计 383 10.5.2 使用一种并行处理方法的基音周期估计 386 10.5.3 自相关、周期性和中心削波 390 10.5.4 一种基于自相关的基音估计器 395 10.5.5 频域中的基音检测 397 10.5.6 用于基音检测的同态系统 399 10.5.7 使用线性预测参数的基音检测 403 10.6 共振峰估计 405 10.6.1 共振峰估计的同态系统 405 10.6.2 使用线性预测参数的共振峰分析 410 10.9 小结 412 习题 412 第11章语音信号数字编码 424 11.1 引言 424 11.2 语音信号采样 426 11.3 语音统计模型 427 11.3.1 自相关函数和功率谱 427 11.4 瞬时量化 433 11.4.1 均匀量化噪声分析 435 11.4.2 瞬时压扩（压缩/扩展） 442 11.4.3 最优SNR量化 448 11.5 自适应量化 453 11.5.1 前馈自适应 454 11.5.2 反馈自适应 458 11.5.3 自适应量化的总体评价 461 11.6 语音模型参数的量化 461 11.6.1 语音模型的标量量化 462 11.6.2 向量量化 463 11.6.3 VQ实现的要素 466 11.7 差分量化的一般理论 470 11.8 ?调制 476 11.8.1 线性?调制 476 11.8.2 自适应?调制 479 11.8.3 ?调制中的高阶预测器 481 11.8.4 LDM到PCM的转换 482 11.8.5 Δ-Σ模数转换 485 11.9 差分脉冲编码调制 486 11.9.1 自适应量化DPCM 487 11.9.2 自适应预测DPCM 488 11.9.3 ADPCM系统的对比 491 11.10 ADPCM编码器的改善 492 11.10.1 ADPCM编码的基音预测 493 11.10.2 DPCM系统中的噪声整形 495 11.10.3 完全量化的自适应预测编码器 498 11.11 综合分析语音编码 502 11.11.1 A-b-S语音编码系统的基本原理 504 11.11.2 多脉冲LPC 507 11.11.3 码激励线性预测（CELP） 509 11.11.4 比特率为4800bps的CELP 编码器 514 11.11.5 低延时CELP（LD-CELP）编码 516 11.11.6 A-b-S语音编码小结 517 11.12 开环语音编码器 517 11.12.1 二态激励模型 518 11.12.2 LPC声码器 519 11.12.3 残差激励LPC 521 11.12.4 混合激励系统 522 11.13 语音编码器的应用 522 11.13.1 语音编码器的标准化 523 11.13.2 语音编码器的质量评价 524 11.14 小结 526 习题 526 第12章语音和音频的频域编码 541 12.1 引言 541 12.2 历史回顾 542 12.2.1 通道声码器 542 12.2.2 相位声码器 545 12.2.3 早期的STFT数字编码工作 546 12.3 子带编码 546 12.3.1 理想的2子带编码器 547 12.3.2 子带编码的量化器 552 12.3.3 子带语音编码器示例 552 12.4 自适应变换编码 554 12.5 音频编码的感知模型 556 12.5.1 短时分析和合成 556 12.5.2 临界带理论回顾 557 12.5.3 听阈 558 12.5.4 STFT的声压校正 559 12.5.5 掩蔽效应回顾 560 12.5.6 掩蔽音的识别 562 12.5.7 STFT的量化 564 12.6 MPEG-1音频编码标准 566 12.6.1 MPEG-1滤波器组 566 12.6.2 通道信号的量化 571 12.6.3 MPEG-1层II和层III 573 12.7 其他语音编码标准 574 12.8 小结 574 习题 574 第13章文语转换合成方法 582 13.1 简介 582 13.2 文本分析 582 13.2.1 文档结构检测 583 13.2.2 文本正则化 583 13.2.3 语义分析 584 13.2.4 语音学分析 584 13.2.5 多音词消歧 585 13.2.6 字母-声音转换 585 13.2.7 韵律分析 586 13.2.8 韵律指定 586 13.3 语音合成方法的发展 587 13.4 早期的语音合成方法 588 13.4.1 声码器 588 13.4.2 终端模拟语音合成 590 13.4.3 发音器官语音合成方法 591 13.4.4 单词拼接合成 593 13.5 单元选择方法 595 13.5.1 拼接单元的选择 595 13.5.2 自然语音中的单元选择 597 13.5.3 从文本中进行在线单元选择 597 13.5.4 单元选择问题 597 13.5.5 转移代价和单元代价 599 13.5.6 单元边界平滑和修改 600 13.5.7 单元选择方法的实验结果 605 13.6 TTS的未来需求 605 13.7 可视化TTS 605 13.7.1 VTTS处理 606 13.8 小结 608 习题 608 第14章自动语音识别和自然语言理解 610 14.1 引言 610 14.2 自动语音识别简述 611 14.3 语音识别的整体过程 611 14.4 构建一个语音识别系统 612 14.4.1 识别任务 613 14.4.2 识别特征集 613 14.4.3 识别训练 614 14.4.4 测试与性能评估 614 14.5 ASR中的决策过程 614 14.5.1 ASR问题的贝叶斯原理 615 14.5.2 Viterbi算法 618 14.5.3 步骤1：声学建模 619 14.5.4 步骤2：语言模型 620 14.6 步骤3：搜索问题 623 14.7 简单的ASR系统：孤立的数字识别 624 14.8 语音识别器的性能评估 625 14.9 口语理解 628 14.10 对话管理和口语生成 629 14.11 用户界面 631 14.12 多模态用户界面 631 14.13 小结 632 习题 632 附录A 语音和音频处理演示 637 附录B 频域微分方程求解 644 术语表 646