| 作者 |
| [美] 约翰·C.米德尔布鲁克斯(John C.Middlebrooks) 尤纳森·Z.西蒙(Jonathan Z.Simon) 阿瑟·N.波珀(Arthur N.Popper) 理查德·R.费伊(Richard R.Fay) |
| 丛书名 |
| 出版社 |
| 机械工业出版社 |
| ISBN |
| 9787111668978 |
| 简要 |
| 简介 |
| 内容简介书籍计算机书籍 语音识别技术得益于深度学习的发展,已经走进了我们的生活。但是,复杂开放环境下的语音交互是目前语音识别技术发展中无法回避的挑战性难题。本书面向这个主题,从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意,进行了全方位地分析;从信号处理的技术实现、计算建模以及听障应用的角度进行了详细地阐述。 |
| 目录 |
| 推荐语 译者序 前言 第1章 解析听觉场景的耳和脑机制 1 1.1 引言 1 1.2 一些关键概念 2 1.3 本书概述 2 1.4 耳和脑 4 参考文献 5 第2章 听觉客体的形成和选择 6 2.1 引言 6 2.1.1 鸡尾酒会:令人困惑的混合声音和受限的加工容量 7 2.1.2 基于客体的注意 8 2.1.3 异构化而非层次化加工 9 2.1.4 历史笔记 9 2.2 解析声学场景:听觉客体形成 11 2.2.1 局部频谱时间线索支持“音节层面”的客体形成 11 2.2.2 高阶特征将音节联结成“流” 12 2.2.3 开放问题 13 2.3 聚焦注意:选择什么去加工 14 2.3.1 自上而下控制指导选择 14 2.3.2 自下而上显著性影响注意 14 2.3.3 从不完美的客体中提取语义 15 2.4 基于客体听觉选择性注意的感知结果 15 2.4.1 分散注意的失败 15 2.4.2 客体形成和选择之间的强制性交互 16 2.4.3 转换注意的代价 17 2.5 支持客体形成的神经机制 17 2.6 支持客体选择的神经机制 18 2.6.1 控制注意的视觉认知网络 18 2.6.2 听觉空间注意调用视觉定向和重定向网络 19 2.6.3 非空间听觉注意调动不同的听觉专用网络 20 2.6.4 感知模态和任务要求影响网络活动 20 2.6.5 对关注语音的神经响应夹带 22 2.6.6 关注听觉注意的其他神经特征 23 2.7 总结 23 参考文献 24 第3章 能量掩蔽和掩蔽释放 34 3.1 引言 34 3.2 通过基频进行区分 36 3.2.1 基频差值的影响 36 3.2.2 选择一个公共基频的多个谐波分量 37 3.2.3 时域分析 39 3.2.4 外周非线性的影响 40 3.2.5 消除机制 40 3.2.6 加工层级 41 3.2.7 小结 42 3.3 关于包络波动的掩蔽和掩蔽释放 42 3.3.1 在“波谷”中聆听 43 3.3.2 外周非线性的影响 44 3.3.3 调制掩蔽 44 3.3.4 噪声中的内在调制 45 3.3.5 基于调制滤波器组的模型 47 3.3.6 听觉受损者的“波谷聆听”效应 47 3.3.7 小结 49 3.4 掩蔽的空间释放 49 3.4.1 较优耳听觉 50 3.4.2 双耳去掩蔽 52 3.4.3 “迟钝”的问题 53 3.4.4 掩蔽的空间释放模型 53 3.4.5 小结 54 3.5 其他机制 54 3.5.1 频率调制对突出效果的影响 54 3.5.2 起始时间差异与适应的潜在作用 55 3.6 总结 55 参考文献 56 第4章 语音识别中的信息掩蔽 61 4.1 引言 61 4.2 混叠语音掩蔽案例的研究历史 62 4.3 确定混叠语音掩蔽中的能量掩蔽和信息掩蔽 64 4.3.1 不确定性 65 4.3.2 控制/估计能量掩蔽 67 4.3.3 语言变量 70 4.4 双耳分析模型在混叠语音掩蔽中的应用 79 4.5 总结 84 参考文献 85 第5章 鸡尾酒会问题的建模 90 5.1 引言 90 5.2 定义“鸡尾酒会问题”中的问题 91 5.3 鸡尾酒会问题建模准则 93 5.3.1 算法策略 93 5.3.2 神经学基础 98 5.4 鸡尾酒会问题的自下而上模型 99 5.5 自上而下的过程和鸡尾酒会问题 101 5.6 总结 102 参考文献 103 第6章 语音空间流分离 112 6.1 引言 112 6.2 基于心理物理学的空间流分离分析 113 6.2.1 空间线索对语音流整合的微弱掩蔽 114 6.2.2 基于空间线索的鲁棒流分离 115 6.2.3 流分离的空间敏锐度 116 6.2.4 空间流分离的声学线索 118 6.3 一种用于空间流分离的自下向上机制 121 6.3.1 初级听觉皮层的空间流分离 122 6.3.2 皮质神经元的空间节律性掩蔽释放 125 6.3.3 一种自下而上的空间流分离机制 127 6.4 用于空间定位和流分离的“公共”和“专用”空间表示 128 6.5 注意客体的选择 130 6.5.1 行为动物刺激特异性的任务依赖性调节 130 6.5.2 人类神经生理学中的客体选择 131 6.6 总结、综合和未来方向 132 参考文献 133 第7章 人类听觉神经科学与鸡尾酒会问题 138 7.1 引言 139 7.1.1 常用实验方法 139 7.1.2 本章主题 140 7.2 人类空间听觉的神经基础 140 7.3 人类听觉流分离的神经基础:简单的声音 143 7.3.1 使用有限注意力操控的研究 144 7.3.2 使用显式注意力操控的研究 147 7.4 人类听觉流分离的神经基础:语音 149 7.4.1 在固定噪声中使用语音的研究 150 7.4.2 使用竞争性语音流的研究 151 7.4.3 噪声中语音处理的神经解剖学 154 7.5 其他方面 155 7.5.1 时间相干性 155 7.5.2 自下而上与自上而下的注意 155 7.6 总结 156 参考文献 157 第8章 鸡尾酒会中婴幼儿与儿童的听觉加工 162 8.1 引言 162 8.2 听觉编码的发育 163 8.2.1 频谱分辨率与能量掩蔽 163 8.2.2 基频 164 8.2.3 时间分辨率 165 8.2.4 空间听觉 165 8.2.5 听觉–视觉对应关系 166 8.3 听觉场景分析的发育 166 8.3.1 在讲话中倾听语音 167 8.3.2 听觉场景分析中的线索 168 8.3.3 选择性注意的作用 175 8.4 总结、综合和未来方向 177 参考文献 178 第9章 鸡尾酒会中老年人的听觉加工 187 9.1 引言 188 9.2 听觉老化 189 9.2.1 外周 189 9.2.2 语音理解 189 9.2.3 时间加工的心理声学和语音加工的行为测量 190 9.3 听觉和认知老化的电生理学测量 193 9.3.1 脑干 193 9.3.2 皮层 193 9.3.3 调合年龄相关变化的行为和电生理学发现 194 9.4 语音理解中掩蔽声类型依赖的年龄相关差异 195 9.4.1 稳态掩蔽声 195 9.4.2 复杂和波动的非语音掩蔽声 196 9.4.3 语音掩蔽声 196 9.5 前景与背景声音的感知组织中年龄相关差异的行为测量 196 9.5.1 掩蔽的空间分离与释放 197 9.5.2 听觉流分离的形成速度 199 9.5.3 听觉空间注意 200 9.5.4 词汇和句子之上的语篇 201 9.5.5 记忆 202 9.6 认知老化与感觉认知之间的相互作用 203 9.6.1 认知老化 203 9.6.2 感觉认知之间的相互作用 203 9.6.3 脑可塑性与代偿 204 9.7 总结 204 参考文献 205 第10章 复杂听觉场景下植入人工耳蜗和助听器的听觉感知 214 10.1 引言 214 10.2 鸡尾酒会中的成人 215 10.2.1 制约表现的因素 215 10.2.2 限制听力损失个体表现的生理因素 216 10.2.3 设备 217 10.3 成人耳蜗植入 218 10.3.1 空间线索可用性 218 10.3.2 双侧植入耳蜗后成人的双耳能力 220 10.3.3 听觉定位 221 10.3.4 双耳掩蔽级差 221 10.3.5 双侧植入耳蜗后成人的掩蔽的空间释放 222 10.3.6 在听觉正常人的测试上模拟人工耳蜗处理的各个方面 225 10.4 使用助听器的成人 226 10.4.1 单侧装配与双侧装配的对比 226 10.4.2 双侧装配的益处 227 10.4.3 技术进步 227 10.5 儿科研究简介 228 10.5.1 研究双侧植入耳蜗儿童 228 10.5.2 双侧顺序植入耳蜗与双侧同时植入耳蜗 230 10.5.3 使用助听器的儿童 231 10.5.4 执行功能的可变性和影响 232 10.5.5 未来方向和临床应用 232 10.6 结论 233 参考文献 233 术语表 240 |