人与机器听觉:听见声音的意义

作者
[美]理查德·F. 里昂(Richard F. Lyon)
丛书名
智能科学与技术丛书
出版社
机械工业出版社
ISBN
9787111684534
简要
简介
内容简介书籍计算机书籍 本书由谷歌首席科学家Lyon撰写,是一部关于听觉研究的系统性学术著作。书中提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,明确反对将耳蜗视作傅里叶频率分析器的做法。本书内容系统且全面,涵盖人类听觉原理、机器听觉理论、精密听觉模型建模和机器听觉应用实例,还包括对听觉研究史上的标志性人物及事例的介绍。本书对数学原理的阐释脉络清晰,并配有算法源码,适合相关领域的技术人员和研究人员参考,也适合作为高等院校相关研究生课程的教材。
目录
译者序
序言
前言
关于作者
第一部分 声音分析与表征概述
第1章 引言3
1.1 David Marr论视觉与听觉5
1.2 自上而下与自下而上分析8
1.3 神经模拟方法10
1.4 听觉图像11
1.5 耳朵是频率分析器吗12
1.6 第三音13
1.7 声音理解与意义提取14
1.8 机器视觉与机器学习技术的利用15
1.9 本书的内容安排15
第2章 听觉理论18
2.1 一种“新”的听觉理论18
2.2 更新的听觉理论20
2.3 主动与非线性听觉理论21
2.4 听觉三元理论22
2.5 听觉图像理论23
第3章 对数及幂律听觉27
3.1 对数与幂律27
3.2 对数频率28
3.3 对数功率30
3.4 Bode图31
3.5 感知映射33
3.6 恒Q值分析36
3.7 对数应用注意事项36
第4章 人类听觉概述37
4.1人机对比37
4.2 听觉生理学37
4.3 听觉中的关键问题39
4.4 响度40
4.5 临界频带、掩蔽与抑制43
4.6 音高感知45
4.7 音色52
4.8 协和与不协和53
4.9 语音感知55
4.10 双耳听觉58
4.11 听觉流59
4.12 非线性60
4.13 后续建议61
第5章 声学方法与听觉修正62
5.1 声音、语音与音乐建模62
5.2 短时谱分析62
5.3 谱的平滑与变换66
5.4 源-滤波器模型与同态信号处理68
5.5 摆脱对数70
5.6 听觉频率尺度70
5.7 mel频率倒谱71
5.8 线性预测编码72
5.9 PLP与RASTA73
5.10 自动语音识别中的听觉技术74
5.11 必要的改进75
第二部分 听觉的系统理论
第6章 线性系统引言79
6.1 平滑:恰当的起点80
6.2 线性时不变系统80
6.3 滤波器与频率82
6.4 微分方程与齐次解83
6.5 冲激响应84
6.6 因果性与稳定性86
6.7 卷积86
6.8 本征函数与传递函数87
6.9 频率响应90
6.10 变换与运算方法92
6.11 有理函数及其零极点94
6.12 传递函数增益与相位的图解计算96
6.13 卷积定理97
6.14 级联、并联与反馈结构中滤波器的互联98
6.15 总结及后续安排100
第7章 离散时间与数字系统102
7.1 计算机模拟系统102
7.2 离散时间线性移不变系统102
7.3 冲激响应与卷积103
7.4 离散时间系统中的频率103
7.5 Z变换及其逆变换103
7.6 单位超前算子与单位延迟算子104
7.7 滤波器与传递函数105
7.8 采样与混叠108
7.9 自连续时间系统的映射110
7.10 滤波器设计111
7.11 数字滤波器112
7.12 多输入输出114
7.13 傅里叶分析与频谱图114
7.14 观点及拓展阅读116
第8章 谐振器117
8.1 带通滤波器117
8.2 四阶谐振器121
8.3 谐振器频率响应123
8.4 谐振器冲激响应125
8.5 复谐振器与通用谐振曲线127
8.6 并联系统的复零点128
8.7 实系统实现132
8.8 数字谐振器134
第9章 gammatone及相关滤波器137
9.1 复合谐振器构成的听觉模型137
9.2 多极点137
9.3 复gammatone滤波器139
9.4 实gammatone滤波器142
9.5 全极点gammatone滤波器144
9.6 gammachirp滤波器146
9.7 变极点Q149
9.8 非重极点149
9.9 数字滤波器150
第10章 非线性系统153
10.1 Volterra级数及其他描述153
10.2 基本非线性155
10.3 Hopf分叉155
10.4 分布式带通非线性156
10.5 非线性系统响应曲线157
10.6 双音调响应160
10.7 非线性与混叠161
10.8 特别关注163
第11章 自动增益控制164
11.1 输入-输出强度压缩164
11.2 非线性反馈控制165
11.3 平衡状态下的AGC压缩166
11.4 多级联可变增益168
11.5 由级联谐振器阻尼控制的增益控制170
11.6 AGC动态特性170
11.7 AGC环路稳定性174
11.8 多环路AGC176
第12章 分布式系统中的波178
12.1 均匀线性介质中的波179
12.2 波数与传递函数184
12.3 非均匀介质186
12.4 非均匀介质等效滤波器级联189
12.5 冲激响应190
12.6 群速度与群延迟191
第三部分 听觉外周
第13章 听觉滤波器模型195
13.1 何谓听觉滤波器196
13.2 从谐振器到高斯滤波器198
13.3 听觉滤波器模型应具备的十大优良特性199
13.4 代表性听觉滤波器模型201
13.4.1 听觉滤波器的三条发展路径201
13.4.2 三个圆滑指数滤波器202
13.4.3 四个gammatone族滤波器203
13.4.4 三种滤波器级联204
13.5 难点:时变与非线性听觉滤波器206
13.6 滤波器模型的拟合参数208
13.6.1 拟合心理声学滤波器形状208
13.6.2 OZGF及PZFC变型采用更少参数产生更好拟合210
13.7 抑制212
13.8 由生理数据导出冲激响应212
13.9 耳蜗模型总结及应用215
第14章 耳蜗建模216
14.1 耳蜗结构216
14.2 行波219
14.3 1D、2D及3D流体力学222
14.4 长波、短波及2D模型224
14.5 主动式微观力学227
14.6 尺度对称性与耳蜗频率-位置图227
14.7 滤波器级联耳蜗模型229
14.8 外毛细胞等效主动增益元件231
14.9 力学模型与实验中的色散关系233
14.10 内毛细胞等效检测器234
14.11 传出控制用于对声音的适应235
14.12 总结及拓展阅读237
第15章 CARFAC数字耳蜗模型238
15.1 各部分汇总238
15.2 CARFAC模型框架239
15.3 生理要素239
15.4 模拟模型与双向模型241
15.5 开源软件242
15.6 CARFAC总结242
第16章 非对称谐振器级联243
16.1 线性耳蜗模型243
16.2 耦合型滤波器实现244
16.2.1 级的直流增益246
16.2.2 级响应与级联响应246
第17章 外毛细胞251
17.1 单一机制中的多重效应252
17.2 非线性函数252
17.3 DOHC的AGC效应254
17.4 典型性畸变响应模式256
17.5 形成闭环259
第18章 内毛细胞260
18.1 利用S形函数实现整流261
18.2 自适应纤毛-细胞模型263
18.2.1 Schroeder-Hall模型264
18.2.2 Allen模型264
18.2.3 Meddis模型265
18.2.4 模型选择266
18.3 数字IHC模型266
第19章 AGC环路滤波器268
19.1 CARFAC的AGC环路268
19.2 AGC滤波器结构268
19.3 平滑滤波器零极点分析269
19.4 AGC滤波器的时域响应271
19.5 AGC滤波器的空间响应273
19.6 带抽取的时空平滑275
19.7 适调特性275
19.8 双耳或多耳操作276
19.9 CARFAC和其他系统中的耦合及多级AGC277
第四部分 听神经系统
第20章 听神经与蜗核281
20.1 从毛细胞到神经放电282
20.2 音调拓扑组构284
20.3 耳蜗谱图中的精细时间结构284
20.4 蜗核中的细胞类型285
20.5 抑制及其他计算286
20.6 尖峰时序编码287
第21章 听觉图像288
21.1 声音的电影288
21.2 历史289
21.3 稳定听觉图像289
21.4 触发式时序积分292
21.4.1 基于触发脉冲的互相关292
21.4.2 触发同步294
21.5 传统短时自相关296
21.6 非对称性296
21.7 SAI计算298
21.8 基音与频谱299
21.9 音乐听觉图像299
21.10 语音听觉图像300
21.11 SAI汇总轨迹:基音谱图302
21.12 SAI耳蜗谱图304
21.13 对数-延迟SAI304
第22章 双耳空间听音308
22.1 Rayleigh双重理论:耳间强度及相位308
22.2 ITD与ILD313
22.3 头相关传递函数314
22.4 耳间差异的神经提取317
22.5 蜗核与斜方体的作用320
22.6 双耳声反射与增益控制321
22.7 优先效应322
22.8 模型实现323
22.9 耳间相干324
22.10 双耳应用324
第23章 听觉大脑326
23.1 场景分析:ASA与CASA326
23.2 注意力及流分离328
23.2.1 合成-分析328
23.2.2 “单纯试音”对比自上而下处理330
23.2.3 时频掩蔽ASA330
23.3 脑中的多级332
23.3.1 听觉图像在哪儿333
23.3.2 CASA在哪儿334
23.4 高层级听觉通路334
23.4.1 下丘336
23.4.2 内侧膝状体336
23.4.3 听觉皮层337
23.4.4 下行通路337
23.5 展望338
第五部分 机器学习及应用
第24章 机器学习神经网络341
24.1 向数据学习341
24.2 感知机341
24.3 训练阶段342
24.4 非线性输出344
24.5 输入中的非线性347
24.6 多感知层348
24.7 神经单元与神经网络348
24.8 误差反向传播训练350
24.9 代价函数与正则化351
24.10 多类分类器353
24.11 神经网络的成功与失败354
24.12 统计学习理论355
24.13 总结与观点356
第25章 特征空间358
25.1 特征工程359
25.2 深度网络自动特征优化360
25.3 带通功率与二次特征361
25.4 耳蜗滤波器组输出的二次特征361
25.5 特征提取中的非线性与增益控制362
25.6 神经启发特征提取363
25.7 稀疏化和赢者通吃特征363
25.8 哪种方法会胜出364
第26章 声音搜索365
26.1 声音建模366
26.1.1 耳蜗模型滤波器组367
26.1.2 基于频闪时序积分的稳定听觉图像367
26.1.3 SAI的稀疏编码367
26.1.4 矩形选择369
26.2 给定文本查询的声音排序370
26.3 实验373
26.3.1 数据集373
26.3.2 实验设置374
26.3.3 稀疏编码参数374
26.3.4 与MFCC对比374
26.4 结果374
26.5 结论与下一步工作377
第27章 音乐旋律匹配378
27.1 算法380
27.1.1 SAI380
27.1.2 听觉图像的色度380
27.1.3 频谱图的色度382
27.1.4 区间谱图的生成382
27.1.5 相似性评分384
27.2 实验385
27.3 讨论387
27.3.1 SAI和基于频谱图的色度387
27.3.2 规模扩展387
27.3.3 区间谱图的哈希387
27.4 总结与结论388
第28章 其他应用389
28.1 听觉生理学与心理声学389
28.2 音频编码与压缩390
28.3 助听器与人工耳蜗390
28.4 声音可视化395
28.5 诊断397
28.6 语音与说话人识别398
28.7 音乐信息检索399
28.8 安全、监视与报警400
28.9 日志、总结与索引400
28.10 结束语401
中英文术语对照表402
参考文献


推荐

车牌查询
桂ICP备20004708号-3