[套装书]人与机器听觉:听见声音的意义+听觉系统与鸡尾酒会问题(2册)

作者
理查德·F. 里昂 约翰·C.米德尔布鲁克斯 尤纳森·Z.西蒙 阿瑟·N.波珀 理查德·R.费伊
丛书名
智能科学与技术丛书
出版社
机械工业出版社
ISBN
9782108191512
简要
简介
内容简介书籍计算机书籍 ---------------------------8083258 - 人与机器听觉:听见声音的意义--------------------------- 本书由谷歌首席科学家Lyon撰写,是一部关于听觉研究的系统性学术著作。书中提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,明确反对将耳蜗视作傅里叶频率分析器的做法。本书内容系统且全面,涵盖人类听觉原理、机器听觉理论、精密听觉模型建模和机器听觉应用实例,还包括对听觉研究史上的标志性人物及事例的介绍。本书对数学原理的阐释脉络清晰,并配有算法源码,适合相关领域的技术人员和研究人员参考,也适合作为高等院校相关研究生课程的教材。 ---------------------------8077265 - 听觉系统与鸡尾酒会问题--------------------------- 语音识别技术得益于深度学习的发展,已经走进了我们的生活。但是,复杂开放环境下的语音交互是目前语音识别技术发展中无法回避的挑战性难题。本书面向这个主题,从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意,进行了全方位地分析;从信号处理的技术实现、计算建模以及听障应用的角度进行了详细地阐述。
目录
[套装书具体书目]
8077265 - 听觉系统与鸡尾酒会问题 - 9787111668978 - 机械工业出版社 - 定价 99
8083258 - 人与机器听觉:听见声音的意义 - 9787111684534 - 机械工业出版社 - 定价 169



---------------------------8083258 - 人与机器听觉:听见声音的意义---------------------------


译者序
序言
前言
关于作者
第一部分 声音分析与表征概述
第1章 引言3
1.1 David Marr论视觉与听觉5
1.2 自上而下与自下而上分析8
1.3 神经模拟方法10
1.4 听觉图像11
1.5 耳朵是频率分析器吗12
1.6 第三音13
1.7 声音理解与意义提取14
1.8 机器视觉与机器学习技术的利用15
1.9 本书的内容安排15
第2章 听觉理论18
2.1 一种“新”的听觉理论18
2.2 更新的听觉理论20
2.3 主动与非线性听觉理论21
2.4 听觉三元理论22
2.5 听觉图像理论23
第3章 对数及幂律听觉27
3.1 对数与幂律27
3.2 对数频率28
3.3 对数功率30
3.4 Bode图31
3.5 感知映射33
3.6 恒Q值分析36
3.7 对数应用注意事项36
第4章 人类听觉概述37
4.1人机对比37
4.2 听觉生理学37
4.3 听觉中的关键问题39
4.4 响度40
4.5 临界频带、掩蔽与抑制43
4.6 音高感知45
4.7 音色52
4.8 协和与不协和53
4.9 语音感知55
4.10 双耳听觉58
4.11 听觉流59
4.12 非线性60
4.13 后续建议61
第5章 声学方法与听觉修正62
5.1 声音、语音与音乐建模62
5.2 短时谱分析62
5.3 谱的平滑与变换66
5.4 源-滤波器模型与同态信号处理68
5.5 摆脱对数70
5.6 听觉频率尺度70
5.7 mel频率倒谱71
5.8 线性预测编码72
5.9 PLP与RASTA73
5.10 自动语音识别中的听觉技术74
5.11 必要的改进75
第二部分 听觉的系统理论
第6章 线性系统引言79
6.1 平滑:恰当的起点80
6.2 线性时不变系统80
6.3 滤波器与频率82
6.4 微分方程与齐次解83
6.5 冲激响应84
6.6 因果性与稳定性86
6.7 卷积86
6.8 本征函数与传递函数87
6.9 频率响应90
6.10 变换与运算方法92
6.11 有理函数及其零极点94
6.12 传递函数增益与相位的图解计算96
6.13 卷积定理97
6.14 级联、并联与反馈结构中滤波器的互联98
6.15 总结及后续安排100
第7章 离散时间与数字系统102
7.1 计算机模拟系统102
7.2 离散时间线性移不变系统102
7.3 冲激响应与卷积103
7.4 离散时间系统中的频率103
7.5 Z变换及其逆变换103
7.6 单位超前算子与单位延迟算子104
7.7 滤波器与传递函数105
7.8 采样与混叠108
7.9 自连续时间系统的映射110
7.10 滤波器设计111
7.11 数字滤波器112
7.12 多输入输出114
7.13 傅里叶分析与频谱图114
7.14 观点及拓展阅读116
第8章 谐振器117
8.1 带通滤波器117
8.2 四阶谐振器121
8.3 谐振器频率响应123
8.4 谐振器冲激响应125
8.5 复谐振器与通用谐振曲线127
8.6 并联系统的复零点128
8.7 实系统实现132
8.8 数字谐振器134
第9章 gammatone及相关滤波器137
9.1 复合谐振器构成的听觉模型137
9.2 多极点137
9.3 复gammatone滤波器139
9.4 实gammatone滤波器142
9.5 全极点gammatone滤波器144
9.6 gammachirp滤波器146
9.7 变极点Q149
9.8 非重极点149
9.9 数字滤波器150
第10章 非线性系统153
10.1 Volterra级数及其他描述153
10.2 基本非线性155
10.3 Hopf分叉155
10.4 分布式带通非线性156
10.5 非线性系统响应曲线157
10.6 双音调响应160
10.7 非线性与混叠161
10.8 特别关注163
第11章 自动增益控制164
11.1 输入-输出强度压缩164
11.2 非线性反馈控制165
11.3 平衡状态下的AGC压缩166
11.4 多级联可变增益168
11.5 由级联谐振器阻尼控制的增益控制170
11.6 AGC动态特性170
11.7 AGC环路稳定性174
11.8 多环路AGC176
第12章 分布式系统中的波178
12.1 均匀线性介质中的波179
12.2 波数与传递函数184
12.3 非均匀介质186
12.4 非均匀介质等效滤波器级联189
12.5 冲激响应190
12.6 群速度与群延迟191
第三部分 听觉外周
第13章 听觉滤波器模型195
13.1 何谓听觉滤波器196
13.2 从谐振器到高斯滤波器198
13.3 听觉滤波器模型应具备的十大优良特性199
13.4 代表性听觉滤波器模型201
13.4.1 听觉滤波器的三条发展路径201
13.4.2 三个圆滑指数滤波器202
13.4.3 四个gammatone族滤波器203
13.4.4 三种滤波器级联204
13.5 难点:时变与非线性听觉滤波器206
13.6 滤波器模型的拟合参数208
13.6.1 拟合心理声学滤波器形状208
13.6.2 OZGF及PZFC变型采用更少参数产生更好拟合210
13.7 抑制212
13.8 由生理数据导出冲激响应212
13.9 耳蜗模型总结及应用215
第14章 耳蜗建模216
14.1 耳蜗结构216
14.2 行波219
14.3 1D、2D及3D流体力学222
14.4 长波、短波及2D模型224
14.5 主动式微观力学227
14.6 尺度对称性与耳蜗频率-位置图227
14.7 滤波器级联耳蜗模型229
14.8 外毛细胞等效主动增益元件231
14.9 力学模型与实验中的色散关系233
14.10 内毛细胞等效检测器234
14.11 传出控制用于对声音的适应235
14.12 总结及拓展阅读237
第15章 CARFAC数字耳蜗模型238
15.1 各部分汇总238
15.2 CARFAC模型框架239
15.3 生理要素239
15.4 模拟模型与双向模型241
15.5 开源软件242
15.6 CARFAC总结242
第16章 非对称谐振器级联243
16.1 线性耳蜗模型243
16.2 耦合型滤波器实现244
16.2.1 级的直流增益246
16.2.2 级响应与级联响应246
第17章 外毛细胞251
17.1 单一机制中的多重效应252
17.2 非线性函数252
17.3 DOHC的AGC效应254
17.4 典型性畸变响应模式256
17.5 形成闭环259
第18章 内毛细胞260
18.1 利用S形函数实现整流261
18.2 自适应纤毛-细胞模型263
18.2.1 Schroeder-Hall模型264
18.2.2 Allen模型264
18.2.3 Meddis模型265
18.2.4 模型选择266
18.3 数字IHC模型266
第19章 AGC环路滤波器268
19.1 CARFAC的AGC环路268
19.2 AGC滤波器结构268
19.3 平滑滤波器零极点分析269
19.4 AGC滤波器的时域响应271
19.5 AGC滤波器的空间响应273
19.6 带抽取的时空平滑275
19.7 适调特性275
19.8 双耳或多耳操作276
19.9 CARFAC和其他系统中的耦合及多级AGC277
第四部分 听神经系统
第20章 听神经与蜗核281
20.1 从毛细胞到神经放电282
20.2 音调拓扑组构284
20.3 耳蜗谱图中的精细时间结构284
20.4 蜗核中的细胞类型285
20.5 抑制及其他计算286
20.6 尖峰时序编码287
第21章 听觉图像288
21.1 声音的电影288
21.2 历史289
21.3 稳定听觉图像289
21.4 触发式时序积分292
21.4.1 基于触发脉冲的互相关292
21.4.2 触发同步294
21.5 传统短时自相关296
21.6 非对称性296
21.7 SAI计算298
21.8 基音与频谱299
21.9 音乐听觉图像299
21.10 语音听觉图像300
21.11 SAI汇总轨迹:基音谱图302
21.12 SAI耳蜗谱图304
21.13 对数-延迟SAI304
第22章 双耳空间听音308
22.1 Rayleigh双重理论:耳间强度及相位308
22.2 ITD与ILD313
22.3 头相关传递函数314
22.4 耳间差异的神经提取317
22.5 蜗核与斜方体的作用320
22.6 双耳声反射与增益控制321
22.7 优先效应322
22.8 模型实现323
22.9 耳间相干324
22.10 双耳应用324
第23章 听觉大脑326
23.1 场景分析:ASA与CASA326
23.2 注意力及流分离328
23.2.1 合成-分析328
23.2.2 “单纯试音”对比自上而下处理330
23.2.3 时频掩蔽ASA330
23.3 脑中的多级332
23.3.1 听觉图像在哪儿333
23.3.2 CASA在哪儿334
23.4 高层级听觉通路334
23.4.1 下丘336
23.4.2 内侧膝状体336
23.4.3 听觉皮层337
23.4.4 下行通路337
23.5 展望338
第五部分 机器学习及应用
第24章 机器学习神经网络341
24.1 向数据学习341
24.2 感知机341
24.3 训练阶段342
24.4 非线性输出344
24.5 输入中的非线性347
24.6 多感知层348
24.7 神经单元与神经网络348
24.8 误差反向传播训练350
24.9 代价函数与正则化351
24.10 多类分类器353
24.11 神经网络的成功与失败354
24.12 统计学习理论355
24.13 总结与观点356
第25章 特征空间358
25.1 特征工程359
25.2 深度网络自动特征优化360
25.3 带通功率与二次特征361
25.4 耳蜗滤波器组输出的二次特征361
25.5 特征提取中的非线性与增益控制362
25.6 神经启发特征提取363
25.7 稀疏化和赢者通吃特征363
25.8 哪种方法会胜出364
第26章 声音搜索365
26.1 声音建模366
26.1.1 耳蜗模型滤波器组367
26.1.2 基于频闪时序积分的稳定听觉图像367
26.1.3 SAI的稀疏编码367
26.1.4 矩形选择369
26.2 给定文本查询的声音排序370
26.3 实验373
26.3.1 数据集373
26.3.2 实验设置374
26.3.3 稀疏编码参数374
26.3.4 与MFCC对比374
26.4 结果374
26.5 结论与下一步工作377
第27章 音乐旋律匹配378
27.1 算法380
27.1.1 SAI380
27.1.2 听觉图像的色度380
27.1.3 频谱图的色度382
27.1.4 区间谱图的生成382
27.1.5 相似性评分384
27.2 实验385
27.3 讨论387
27.3.1 SAI和基于频谱图的色度387
27.3.2 规模扩展387
27.3.3 区间谱图的哈希387
27.4 总结与结论388
第28章 其他应用389
28.1 听觉生理学与心理声学389
28.2 音频编码与压缩390
28.3 助听器与人工耳蜗390
28.4 声音可视化395
28.5 诊断397
28.6 语音与说话人识别398
28.7 音乐信息检索399
28.8 安全、监视与报警400
28.9 日志、总结与索引400
28.10 结束语401
中英文术语对照表402
参考文献



---------------------------8077265 - 听觉系统与鸡尾酒会问题---------------------------


推荐语
译者序
前言
第1章 解析听觉场景的耳和脑机制 1
1.1 引言 1
1.2 一些关键概念 2
1.3 本书概述 2
1.4 耳和脑 4
参考文献 5
第2章 听觉客体的形成和选择 6
2.1 引言 6
2.1.1 鸡尾酒会:令人困惑的混合声音和受限的加工容量 7
2.1.2 基于客体的注意 8
2.1.3 异构化而非层次化加工 9
2.1.4 历史笔记 9
2.2 解析声学场景:听觉客体形成 11
2.2.1 局部频谱时间线索支持“音节层面”的客体形成 11
2.2.2 高阶特征将音节联结成“流” 12
2.2.3 开放问题 13
2.3 聚焦注意:选择什么去加工 14
2.3.1 自上而下控制指导选择 14
2.3.2 自下而上显著性影响注意 14
2.3.3 从不完美的客体中提取语义 15
2.4 基于客体听觉选择性注意的感知结果 15
2.4.1 分散注意的失败 15
2.4.2 客体形成和选择之间的强制性交互 16
2.4.3 转换注意的代价 17
2.5 支持客体形成的神经机制 17
2.6 支持客体选择的神经机制 18
2.6.1 控制注意的视觉认知网络 18
2.6.2 听觉空间注意调用视觉定向和重定向网络 19
2.6.3 非空间听觉注意调动不同的听觉专用网络 20
2.6.4 感知模态和任务要求影响网络活动 20
2.6.5 对关注语音的神经响应夹带 22
2.6.6 关注听觉注意的其他神经特征 23
2.7 总结 23
参考文献 24
第3章 能量掩蔽和掩蔽释放 34
3.1 引言 34
3.2 通过基频进行区分 36
3.2.1 基频差值的影响 36
3.2.2 选择一个公共基频的多个谐波分量 37
3.2.3 时域分析 39
3.2.4 外周非线性的影响 40
3.2.5 消除机制 40
3.2.6 加工层级 41
3.2.7 小结 42
3.3 关于包络波动的掩蔽和掩蔽释放 42
3.3.1 在“波谷”中聆听 43
3.3.2 外周非线性的影响 44
3.3.3 调制掩蔽 44
3.3.4 噪声中的内在调制 45
3.3.5 基于调制滤波器组的模型 47
3.3.6 听觉受损者的“波谷聆听”效应 47
3.3.7 小结 49
3.4 掩蔽的空间释放 49
3.4.1 较优耳听觉 50
3.4.2 双耳去掩蔽 52
3.4.3 “迟钝”的问题 53
3.4.4 掩蔽的空间释放模型 53
3.4.5 小结 54
3.5 其他机制 54
3.5.1 频率调制对突出效果的影响 54
3.5.2 起始时间差异与适应的潜在作用 55
3.6 总结 55
参考文献 56
第4章 语音识别中的信息掩蔽 61
4.1 引言 61
4.2 混叠语音掩蔽案例的研究历史 62
4.3 确定混叠语音掩蔽中的能量掩蔽和信息掩蔽 64
4.3.1 不确定性 65
4.3.2 控制/估计能量掩蔽 67
4.3.3 语言变量 70
4.4 双耳分析模型在混叠语音掩蔽中的应用 79
4.5 总结 84
参考文献 85
第5章 鸡尾酒会问题的建模 90
5.1 引言 90
5.2 定义“鸡尾酒会问题”中的问题 91
5.3 鸡尾酒会问题建模准则 93
5.3.1 算法策略 93
5.3.2 神经学基础 98
5.4 鸡尾酒会问题的自下而上模型 99
5.5 自上而下的过程和鸡尾酒会问题 101
5.6 总结 102
参考文献 103
第6章 语音空间流分离 112
6.1 引言 112
6.2 基于心理物理学的空间流分离分析 113
6.2.1 空间线索对语音流整合的微弱掩蔽 114
6.2.2 基于空间线索的鲁棒流分离 115
6.2.3 流分离的空间敏锐度 116
6.2.4 空间流分离的声学线索 118
6.3 一种用于空间流分离的自下向上机制 121
6.3.1 初级听觉皮层的空间流分离 122
6.3.2 皮质神经元的空间节律性掩蔽释放 125
6.3.3 一种自下而上的空间流分离机制 127
6.4 用于空间定位和流分离的“公共”和“专用”空间表示 128
6.5 注意客体的选择 130
6.5.1 行为动物刺激特异性的任务依赖性调节 130
6.5.2 人类神经生理学中的客体选择 131
6.6 总结、综合和未来方向 132
参考文献 133
第7章 人类听觉神经科学与鸡尾酒会问题 138
7.1 引言 139
7.1.1 常用实验方法 139
7.1.2 本章主题 140
7.2 人类空间听觉的神经基础 140
7.3 人类听觉流分离的神经基础:简单的声音 143
7.3.1 使用有限注意力操控的研究 144
7.3.2 使用显式注意力操控的研究 147
7.4 人类听觉流分离的神经基础:语音 149
7.4.1 在固定噪声中使用语音的研究 150
7.4.2 使用竞争性语音流的研究 151
7.4.3 噪声中语音处理的神经解剖学 154
7.5 其他方面 155
7.5.1 时间相干性 155
7.5.2 自下而上与自上而下的注意 155
7.6 总结 156
参考文献 157
第8章 鸡尾酒会中婴幼儿与儿童的听觉加工 162
8.1 引言 162
8.2 听觉编码的发育 163
8.2.1 频谱分辨率与能量掩蔽 163
8.2.2 基频 164
8.2.3 时间分辨率 165
8.2.4 空间听觉 165
8.2.5 听觉–视觉对应关系 166
8.3 听觉场景分析的发育 166
8.3.1 在讲话中倾听语音 167
8.3.2 听觉场景分析中的线索 168
8.3.3 选择性注意的作用 175
8.4 总结、综合和未来方向 177
参考文献 178
第9章 鸡尾酒会中老年人的听觉加工 187
9.1 引言 188
9.2 听觉老化 189
9.2.1 外周 189
9.2.2 语音理解 189
9.2.3 时间加工的心理声学和语音加工的行为测量 190
9.3 听觉和认知老化的电生理学测量 193
9.3.1 脑干 193
9.3.2 皮层 193
9.3.3 调合年龄相关变化的行为和电生理学发现 194
9.4 语音理解中掩蔽声类型依赖的年龄相关差异 195
9.4.1 稳态掩蔽声 195
9.4.2 复杂和波动的非语音掩蔽声 196
9.4.3 语音掩蔽声 196
9.5 前景与背景声音的感知组织中年龄相关差异的行为测量 196
9.5.1 掩蔽的空间分离与释放 197
9.5.2 听觉流分离的形成速度 199
9.5.3 听觉空间注意 200
9.5.4 词汇和句子之上的语篇 201
9.5.5 记忆 202
9.6 认知老化与感觉认知之间的相互作用 203
9.6.1 认知老化 203
9.6.2 感觉认知之间的相互作用 203
9.6.3 脑可塑性与代偿 204
9.7 总结 204
参考文献 205
第10章 复杂听觉场景下植入人工耳蜗和助听器的听觉感知 214
10.1 引言 214
10.2 鸡尾酒会中的成人 215
10.2.1 制约表现的因素 215
10.2.2 限制听力损失个体表现的生理因素 216
10.2.3 设备 217
10.3 成人耳蜗植入 218
10.3.1 空间线索可用性 218
10.3.2 双侧植入耳蜗后成人的双耳能力 220
10.3.3 听觉定位 221
10.3.4 双耳掩蔽级差 221
10.3.5 双侧植入耳蜗后成人的掩蔽的空间释放 222
10.3.6 在听觉正常人的测试上模拟人工耳蜗处理的各个方面 225
10.4 使用助听器的成人 226
10.4.1 单侧装配与双侧装配的对比 226
10.4.2 双侧装配的益处 227
10.4.3 技术进步 227
10.5 儿科研究简介 228
10.5.1 研究双侧植入耳蜗儿童 228
10.5.2 双侧顺序植入耳蜗与双侧同时植入耳蜗 230
10.5.3 使用助听器的儿童 231
10.5.4 执行功能的可变性和影响 232
10.5.5 未来方向和临床应用 232
10.6 结论 233
参考文献 233
术语表 240

推荐

车牌查询
桂ICP备20004708号-3