[套装书]人与机器听觉:听见声音的意义+智能语音处理(2册)

作者
理查德·F. 里昂 张雄伟 孙蒙 杨吉斌
丛书名
智能科学与技术丛书
出版社
机械工业出版社
ISBN
9782108191513
简要
简介
内容简介书籍计算机书籍 ---------------------------8083258 - 人与机器听觉:听见声音的意义--------------------------- 本书由谷歌首席科学家Lyon撰写,是一部关于听觉研究的系统性学术著作。书中提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,明确反对将耳蜗视作傅里叶频率分析器的做法。本书内容系统且全面,涵盖人类听觉原理、机器听觉理论、精密听觉模型建模和机器听觉应用实例,还包括对听觉研究史上的标志性人物及事例的介绍。本书对数学原理的阐释脉络清晰,并配有算法源码,适合相关领域的技术人员和研究人员参考,也适合作为高等院校相关研究生课程的教材。 ---------------------------8075049 - 智能语音处理--------------------------- 本书系统性地阐述智能语音处理技术,并重点以机器学习等技术及其在语音处理中的典型应用,理论与实践联系紧密。
目录
[套装书具体书目]
8075049 - 智能语音处理 - 9787111665328 - 机械工业出版社 - 定价 79
8083258 - 人与机器听觉:听见声音的意义 - 9787111684534 - 机械工业出版社 - 定价 169



---------------------------8083258 - 人与机器听觉:听见声音的意义---------------------------


译者序
序言
前言
关于作者
第一部分 声音分析与表征概述
第1章 引言3
1.1 David Marr论视觉与听觉5
1.2 自上而下与自下而上分析8
1.3 神经模拟方法10
1.4 听觉图像11
1.5 耳朵是频率分析器吗12
1.6 第三音13
1.7 声音理解与意义提取14
1.8 机器视觉与机器学习技术的利用15
1.9 本书的内容安排15
第2章 听觉理论18
2.1 一种“新”的听觉理论18
2.2 更新的听觉理论20
2.3 主动与非线性听觉理论21
2.4 听觉三元理论22
2.5 听觉图像理论23
第3章 对数及幂律听觉27
3.1 对数与幂律27
3.2 对数频率28
3.3 对数功率30
3.4 Bode图31
3.5 感知映射33
3.6 恒Q值分析36
3.7 对数应用注意事项36
第4章 人类听觉概述37
4.1人机对比37
4.2 听觉生理学37
4.3 听觉中的关键问题39
4.4 响度40
4.5 临界频带、掩蔽与抑制43
4.6 音高感知45
4.7 音色52
4.8 协和与不协和53
4.9 语音感知55
4.10 双耳听觉58
4.11 听觉流59
4.12 非线性60
4.13 后续建议61
第5章 声学方法与听觉修正62
5.1 声音、语音与音乐建模62
5.2 短时谱分析62
5.3 谱的平滑与变换66
5.4 源-滤波器模型与同态信号处理68
5.5 摆脱对数70
5.6 听觉频率尺度70
5.7 mel频率倒谱71
5.8 线性预测编码72
5.9 PLP与RASTA73
5.10 自动语音识别中的听觉技术74
5.11 必要的改进75
第二部分 听觉的系统理论
第6章 线性系统引言79
6.1 平滑:恰当的起点80
6.2 线性时不变系统80
6.3 滤波器与频率82
6.4 微分方程与齐次解83
6.5 冲激响应84
6.6 因果性与稳定性86
6.7 卷积86
6.8 本征函数与传递函数87
6.9 频率响应90
6.10 变换与运算方法92
6.11 有理函数及其零极点94
6.12 传递函数增益与相位的图解计算96
6.13 卷积定理97
6.14 级联、并联与反馈结构中滤波器的互联98
6.15 总结及后续安排100
第7章 离散时间与数字系统102
7.1 计算机模拟系统102
7.2 离散时间线性移不变系统102
7.3 冲激响应与卷积103
7.4 离散时间系统中的频率103
7.5 Z变换及其逆变换103
7.6 单位超前算子与单位延迟算子104
7.7 滤波器与传递函数105
7.8 采样与混叠108
7.9 自连续时间系统的映射110
7.10 滤波器设计111
7.11 数字滤波器112
7.12 多输入输出114
7.13 傅里叶分析与频谱图114
7.14 观点及拓展阅读116
第8章 谐振器117
8.1 带通滤波器117
8.2 四阶谐振器121
8.3 谐振器频率响应123
8.4 谐振器冲激响应125
8.5 复谐振器与通用谐振曲线127
8.6 并联系统的复零点128
8.7 实系统实现132
8.8 数字谐振器134
第9章 gammatone及相关滤波器137
9.1 复合谐振器构成的听觉模型137
9.2 多极点137
9.3 复gammatone滤波器139
9.4 实gammatone滤波器142
9.5 全极点gammatone滤波器144
9.6 gammachirp滤波器146
9.7 变极点Q149
9.8 非重极点149
9.9 数字滤波器150
第10章 非线性系统153
10.1 Volterra级数及其他描述153
10.2 基本非线性155
10.3 Hopf分叉155
10.4 分布式带通非线性156
10.5 非线性系统响应曲线157
10.6 双音调响应160
10.7 非线性与混叠161
10.8 特别关注163
第11章 自动增益控制164
11.1 输入-输出强度压缩164
11.2 非线性反馈控制165
11.3 平衡状态下的AGC压缩166
11.4 多级联可变增益168
11.5 由级联谐振器阻尼控制的增益控制170
11.6 AGC动态特性170
11.7 AGC环路稳定性174
11.8 多环路AGC176
第12章 分布式系统中的波178
12.1 均匀线性介质中的波179
12.2 波数与传递函数184
12.3 非均匀介质186
12.4 非均匀介质等效滤波器级联189
12.5 冲激响应190
12.6 群速度与群延迟191
第三部分 听觉外周
第13章 听觉滤波器模型195
13.1 何谓听觉滤波器196
13.2 从谐振器到高斯滤波器198
13.3 听觉滤波器模型应具备的十大优良特性199
13.4 代表性听觉滤波器模型201
13.4.1 听觉滤波器的三条发展路径201
13.4.2 三个圆滑指数滤波器202
13.4.3 四个gammatone族滤波器203
13.4.4 三种滤波器级联204
13.5 难点:时变与非线性听觉滤波器206
13.6 滤波器模型的拟合参数208
13.6.1 拟合心理声学滤波器形状208
13.6.2 OZGF及PZFC变型采用更少参数产生更好拟合210
13.7 抑制212
13.8 由生理数据导出冲激响应212
13.9 耳蜗模型总结及应用215
第14章 耳蜗建模216
14.1 耳蜗结构216
14.2 行波219
14.3 1D、2D及3D流体力学222
14.4 长波、短波及2D模型224
14.5 主动式微观力学227
14.6 尺度对称性与耳蜗频率-位置图227
14.7 滤波器级联耳蜗模型229
14.8 外毛细胞等效主动增益元件231
14.9 力学模型与实验中的色散关系233
14.10 内毛细胞等效检测器234
14.11 传出控制用于对声音的适应235
14.12 总结及拓展阅读237
第15章 CARFAC数字耳蜗模型238
15.1 各部分汇总238
15.2 CARFAC模型框架239
15.3 生理要素239
15.4 模拟模型与双向模型241
15.5 开源软件242
15.6 CARFAC总结242
第16章 非对称谐振器级联243
16.1 线性耳蜗模型243
16.2 耦合型滤波器实现244
16.2.1 级的直流增益246
16.2.2 级响应与级联响应246
第17章 外毛细胞251
17.1 单一机制中的多重效应252
17.2 非线性函数252
17.3 DOHC的AGC效应254
17.4 典型性畸变响应模式256
17.5 形成闭环259
第18章 内毛细胞260
18.1 利用S形函数实现整流261
18.2 自适应纤毛-细胞模型263
18.2.1 Schroeder-Hall模型264
18.2.2 Allen模型264
18.2.3 Meddis模型265
18.2.4 模型选择266
18.3 数字IHC模型266
第19章 AGC环路滤波器268
19.1 CARFAC的AGC环路268
19.2 AGC滤波器结构268
19.3 平滑滤波器零极点分析269
19.4 AGC滤波器的时域响应271
19.5 AGC滤波器的空间响应273
19.6 带抽取的时空平滑275
19.7 适调特性275
19.8 双耳或多耳操作276
19.9 CARFAC和其他系统中的耦合及多级AGC277
第四部分 听神经系统
第20章 听神经与蜗核281
20.1 从毛细胞到神经放电282
20.2 音调拓扑组构284
20.3 耳蜗谱图中的精细时间结构284
20.4 蜗核中的细胞类型285
20.5 抑制及其他计算286
20.6 尖峰时序编码287
第21章 听觉图像288
21.1 声音的电影288
21.2 历史289
21.3 稳定听觉图像289
21.4 触发式时序积分292
21.4.1 基于触发脉冲的互相关292
21.4.2 触发同步294
21.5 传统短时自相关296
21.6 非对称性296
21.7 SAI计算298
21.8 基音与频谱299
21.9 音乐听觉图像299
21.10 语音听觉图像300
21.11 SAI汇总轨迹:基音谱图302
21.12 SAI耳蜗谱图304
21.13 对数-延迟SAI304
第22章 双耳空间听音308
22.1 Rayleigh双重理论:耳间强度及相位308
22.2 ITD与ILD313
22.3 头相关传递函数314
22.4 耳间差异的神经提取317
22.5 蜗核与斜方体的作用320
22.6 双耳声反射与增益控制321
22.7 优先效应322
22.8 模型实现323
22.9 耳间相干324
22.10 双耳应用324
第23章 听觉大脑326
23.1 场景分析:ASA与CASA326
23.2 注意力及流分离328
23.2.1 合成-分析328
23.2.2 “单纯试音”对比自上而下处理330
23.2.3 时频掩蔽ASA330
23.3 脑中的多级332
23.3.1 听觉图像在哪儿333
23.3.2 CASA在哪儿334
23.4 高层级听觉通路334
23.4.1 下丘336
23.4.2 内侧膝状体336
23.4.3 听觉皮层337
23.4.4 下行通路337
23.5 展望338
第五部分 机器学习及应用
第24章 机器学习神经网络341
24.1 向数据学习341
24.2 感知机341
24.3 训练阶段342
24.4 非线性输出344
24.5 输入中的非线性347
24.6 多感知层348
24.7 神经单元与神经网络348
24.8 误差反向传播训练350
24.9 代价函数与正则化351
24.10 多类分类器353
24.11 神经网络的成功与失败354
24.12 统计学习理论355
24.13 总结与观点356
第25章 特征空间358
25.1 特征工程359
25.2 深度网络自动特征优化360
25.3 带通功率与二次特征361
25.4 耳蜗滤波器组输出的二次特征361
25.5 特征提取中的非线性与增益控制362
25.6 神经启发特征提取363
25.7 稀疏化和赢者通吃特征363
25.8 哪种方法会胜出364
第26章 声音搜索365
26.1 声音建模366
26.1.1 耳蜗模型滤波器组367
26.1.2 基于频闪时序积分的稳定听觉图像367
26.1.3 SAI的稀疏编码367
26.1.4 矩形选择369
26.2 给定文本查询的声音排序370
26.3 实验373
26.3.1 数据集373
26.3.2 实验设置374
26.3.3 稀疏编码参数374
26.3.4 与MFCC对比374
26.4 结果374
26.5 结论与下一步工作377
第27章 音乐旋律匹配378
27.1 算法380
27.1.1 SAI380
27.1.2 听觉图像的色度380
27.1.3 频谱图的色度382
27.1.4 区间谱图的生成382
27.1.5 相似性评分384
27.2 实验385
27.3 讨论387
27.3.1 SAI和基于频谱图的色度387
27.3.2 规模扩展387
27.3.3 区间谱图的哈希387
27.4 总结与结论388
第28章 其他应用389
28.1 听觉生理学与心理声学389
28.2 音频编码与压缩390
28.3 助听器与人工耳蜗390
28.4 声音可视化395
28.5 诊断397
28.6 语音与说话人识别398
28.7 音乐信息检索399
28.8 安全、监视与报警400
28.9 日志、总结与索引400
28.10 结束语401
中英文术语对照表402
参考文献



---------------------------8075049 - 智能语音处理---------------------------


前言
第1章 智能语音处理导论1
1.1 概述1
1.2 经典语音处理2
1.2.1 语音处理的发展2
1.2.2 语音基本表示方法3
1.2.3 语音处理基本方法3
1.2.4 经典语音处理方法的不足4
1.3 智能语音处理5
1.3.1 智能语音处理的基本概念5
1.3.2 智能语音处理的基本框架5
1.3.3 智能语音处理的基本模型6
1.4 语音处理的应用7
1.4.1 语音处理的传统应用领域8
1.4.2 语音处理的新应用领域11
1.5 小结14
参考文献14
第2章 稀疏和压缩感知15
2.1 引言15
2.2 稀疏和稀疏表示16
2.2.1 稀疏16
2.2.2 稀疏表示18
2.3 冗余字典19
2.3.1 基本概念19
2.3.2 字典学习20
2.3.3 字典学习算法22
2.3.4 原子选择算法25
2.4 压缩感知27
2.4.1 基本概念27
2.4.2 压缩感知模型29
2.4.3 观测矩阵30
2.4.4 信号重构32
2.5 小结33
参考文献33
第3章 隐变量模型36
3.1 引言36
3.2 高斯混合模型36
3.2.1 基本概念37
3.2.2 GMM参数估计37
3.3 隐马尔可夫模型39
3.3.1 基本概念39
3.3.2 HMM关键问题42
3.4 高斯过程隐变量模型48
3.4.1 基本模型48
3.4.2 GPLVM的理论来源49
3.4.3 GPLVM模型训练50
3.5 小结51
参考文献51
第4章 组合模型52
4.1 引言52
4.2 主成分分析53
4.2.1 基本模型53
4.2.2 求解算法54
4.3 非负矩阵分解56
4.3.1 基本模型56
4.3.2 求解算法57
4.3.3 NMF与其他数据表示模型的关系58
4.4 鲁棒组合模型60
4.4.1 组合模型的鲁棒性分析61
4.4.2 鲁棒主成分分析61
4.4.3 鲁棒非负矩阵分解63
4.5 小结64
参考文献64
第5章 人工神经网络和深度学习65
5.1 引言65
5.2 神经网络基础66
5.2.1 神经元模型66
5.2.2 浅层神经网络67
5.2.3 深度神经网络68
5.3 深度学习69
5.3.1 基本概念和形式69
5.3.2 深度网络的学习方法70
5.4 深度神经网络的典型结构71
5.4.1 深度置信网络71
5.4.2 自动编码器与栈式自动编码器72
5.4.3 卷积神经网络74
5.4.4 循环神经网络75
5.4.5 生成式对抗网络77
5.5 小结79
参考文献79
第6章 语音压缩编码81
6.1 引言81
6.2 基于字典学习的语音信号压缩感知82
6.2.1 语音信号的稀疏性82
6.2.2 语音在常见变换域的稀疏化83
6.2.3 基于K-L展开的语音非相干字典84
6.2.4 基于K-L非相干字典的语音压缩重构87
6.2.5 实验仿真与性能分析88
6.3 基于梅尔倒谱系数重构的语音压缩编码93
6.3.1 基于梅尔倒谱分析的抗噪语音编码模型94
6.3.2 基于稀疏约束的梅尔倒谱合成96
6.3.3 梅尔倒谱系数的量化算法99
6.3.4 实验仿真与性能分析103
6.4 基于深度学习的语音压缩编码107
6.4.1 基于DAE的幅度谱编码和量化107
6.4.2 基于DAE的低速率语音编码110
6.4.3 实验仿真与性能分析111
6.5 小结113
参考文献113
第7章 语音增强115
7.1 引言115
7.2 语音增强技术基础116
7.2.1 语音增强的估计参数116
7.2.2 智能语音增强的语音特征117
7.2.3 性能评价118
7.3 基于非负矩阵分解的语音增强120
7.3.1 基本模型121
7.3.2 基于不相交约束非负矩阵分解的语音增强122
7.3.3 基于CNMF字典学习的语音增强127
7.4 基于深度学习的语音增强136
7.4.1 基于听觉感知加权的深度神经网络语音增强方法136
7.4.2 基于听觉感知掩蔽的深度神经网络语音增强方法141
7.5 小结151
参考文献152
第8章 语音转换155
8.1 引言155
8.2 语音转换基本原理155
8.3 语音转换模型与评价156
8.3.1 语音分析/合成模型156
8.3.2 语音参数的选择157
8.3.3 时间对齐157
8.3.4 转换模型和规则158
8.3.5 转换性能评价159
8.4 基于非负矩阵分解的谱转换160
8.4.1 概述160
8.4.2 基于卷积非负矩阵分解的谱转换161
8.4.3 声道谱转换效果164
8.5 基于深度神经网络的谱转换168
8.5.1 深度学习驱动下的语音转换168
8.5.2 面向谱转换的神经网络模型选择168
8.5.3 基于BLSTM和神经网络声码器交替训练的语音转换171
8.6 小结176
参考文献176
第9章 说话人识别178
9.1 引言178
9.2 说话人识别基础179
9.2.1 说话人识别系统框架179
9.2.2 典型的说话人识别模型180
9.3 基于i-vector的说话人识别及其改进181
9.3.1 基于i-vector的说话人识别概述181
9.3.2 用于提高i-vector鲁棒性的帧加权方法182
9.3.3 实验结果与分析187
9.4 基于深度神经网络的说话人识别187
9.4.1 基于深度神经网络的说话人识别概述187
9.4.2 基于对比度损失函数优化说话人矢量189
9.4.3 实验结果与分析191
9.5 说话人识别系统的攻击与防御192
9.5.1 攻击和防御的背景192
9.5.2 说话人识别系统的攻击方法192
9.5.3 说话人识别攻击的检测方法194
9.5.4 实验结果与分析196
9.6 小结196
参考文献197
第10章 骨导语音增强200
10.1 引言200
10.2 骨导语音增强基础201
10.2.1 骨导语音的产生与特性201
10.2.2 骨导语音盲增强的特点202
10.2.3 骨导语音盲增强的典型方法203
10.3 基于长短时记忆网络的骨导语音盲增强205
10.3.1 骨导/气导语音的谱映射206
10.3.2 基于深度残差BLSTM的骨导语音盲增强方法207
10.3.3 实验仿真及性能分析211
10.4 基于均衡-生成组合谱映射的骨导语音盲增强215
10.4.1 均衡法215
10.4.2 基于均衡-生成组合谱映射的骨导语音盲增强方法216
10.4.3 实验仿真及性能分析218
10.5 小结222
参考文献223
第11章 智能语音处理展望224
11.1 智能语音处理的未来224
11.2 有待解决的关键技术225
11.2.1 语音识别226
11.2.2 语音合成228
11.2.3 语音增强229
11.2.4 语音处理中的安全问题230
11.3 小结230
参考文献230
缩略语232

推荐

车牌查询
桂ICP备20004708号-3