作者 |
约翰·C.米德尔布鲁克斯 尤纳森·Z.西蒙 阿瑟·N.波珀 理查德·R.费伊 纳温·库马尔·马纳西 |
丛书名 |
出版社 |
机械工业出版社 |
ISBN |
9782101129205 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------听觉系统与鸡尾酒会问题--------------------------- 语音识别技术得益于深度学习的发展,已经走进了我们的生活。但是,复杂开放环境下的语音交互是目前语音识别技术发展中无法回避的挑战性难题。本书面向这个主题,从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意,进行了全方位地分析;从信号处理的技术实现、计算建模以及听障应用的角度进行了详细地阐述。 ---------------------------Python深度学习实战:基于TensorFlow和Keras的聊天机器人以及人脸、物体和语音识别--------------------------- 本书讨论使用TensorFlow和Keras等框架构建深度学习应用程序,集中于所需的模型和算法,帮助你在短时间内提高实践技能。内容涵盖了聊天机器人、自然语言处理、人脸和对象识别等主题。目标是提供创建能够执行深度学习的程序所需的概念、技术和算法实现。 |
目录 |
---------------------------听觉系统与鸡尾酒会问题--------------------------- 推荐语 译者序 前言 第1章 解析听觉场景的耳和脑机制 1 1.1 引言 1 1.2 一些关键概念 2 1.3 本书概述 2 1.4 耳和脑 4 参考文献 5 第2章 听觉客体的形成和选择 6 2.1 引言 6 2.1.1 鸡尾酒会:令人困惑的混合声音和受限的加工容量 7 2.1.2 基于客体的注意 8 2.1.3 异构化而非层次化加工 9 2.1.4 历史笔记 9 2.2 解析声学场景:听觉客体形成 11 2.2.1 局部频谱时间线索支持“音节层面”的客体形成 11 2.2.2 高阶特征将音节联结成“流” 12 2.2.3 开放问题 13 2.3 聚焦注意:选择什么去加工 14 2.3.1 自上而下控制指导选择 14 2.3.2 自下而上显著性影响注意 14 2.3.3 从不完美的客体中提取语义 15 2.4 基于客体听觉选择性注意的感知结果 15 2.4.1 分散注意的失败 15 2.4.2 客体形成和选择之间的强制性交互 16 2.4.3 转换注意的代价 17 2.5 支持客体形成的神经机制 17 2.6 支持客体选择的神经机制 18 2.6.1 控制注意的视觉认知网络 18 2.6.2 听觉空间注意调用视觉定向和重定向网络 19 2.6.3 非空间听觉注意调动不同的听觉专用网络 20 2.6.4 感知模态和任务要求影响网络活动 20 2.6.5 对关注语音的神经响应夹带 22 2.6.6 关注听觉注意的其他神经特征 23 2.7 总结 23 参考文献 24 第3章 能量掩蔽和掩蔽释放 34 3.1 引言 34 3.2 通过基频进行区分 36 3.2.1 基频差值的影响 36 3.2.2 选择一个公共基频的多个谐波分量 37 3.2.3 时域分析 39 3.2.4 外周非线性的影响 40 3.2.5 消除机制 40 3.2.6 加工层级 41 3.2.7 小结 42 3.3 关于包络波动的掩蔽和掩蔽释放 42 3.3.1 在“波谷”中聆听 43 3.3.2 外周非线性的影响 44 3.3.3 调制掩蔽 44 3.3.4 噪声中的内在调制 45 3.3.5 基于调制滤波器组的模型 47 3.3.6 听觉受损者的“波谷聆听”效应 47 3.3.7 小结 49 3.4 掩蔽的空间释放 49 3.4.1 较优耳听觉 50 3.4.2 双耳去掩蔽 52 3.4.3 “迟钝”的问题 53 3.4.4 掩蔽的空间释放模型 53 3.4.5 小结 54 3.5 其他机制 54 3.5.1 频率调制对突出效果的影响 54 3.5.2 起始时间差异与适应的潜在作用 55 3.6 总结 55 参考文献 56 第4章 语音识别中的信息掩蔽 61 4.1 引言 61 4.2 混叠语音掩蔽案例的研究历史 62 4.3 确定混叠语音掩蔽中的能量掩蔽和信息掩蔽 64 4.3.1 不确定性 65 4.3.2 控制/估计能量掩蔽 67 4.3.3 语言变量 70 4.4 双耳分析模型在混叠语音掩蔽中的应用 79 4.5 总结 84 参考文献 85 第5章 鸡尾酒会问题的建模 90 5.1 引言 90 5.2 定义“鸡尾酒会问题”中的问题 91 5.3 鸡尾酒会问题建模准则 93 5.3.1 算法策略 93 5.3.2 神经学基础 98 5.4 鸡尾酒会问题的自下而上模型 99 5.5 自上而下的过程和鸡尾酒会问题 101 5.6 总结 102 参考文献 103 第6章 语音空间流分离 112 6.1 引言 112 6.2 基于心理物理学的空间流分离分析 113 6.2.1 空间线索对语音流整合的微弱掩蔽 114 6.2.2 基于空间线索的鲁棒流分离 115 6.2.3 流分离的空间敏锐度 116 6.2.4 空间流分离的声学线索 118 6.3 一种用于空间流分离的自下向上机制 121 6.3.1 初级听觉皮层的空间流分离 122 6.3.2 皮质神经元的空间节律性掩蔽释放 125 6.3.3 一种自下而上的空间流分离机制 127 6.4 用于空间定位和流分离的“公共”和“专用”空间表示 128 6.5 注意客体的选择 130 6.5.1 行为动物刺激特异性的任务依赖性调节 130 6.5.2 人类神经生理学中的客体选择 131 6.6 总结、综合和未来方向 132 参考文献 133 第7章 人类听觉神经科学与鸡尾酒会问题 138 7.1 引言 139 7.1.1 常用实验方法 139 7.1.2 本章主题 140 7.2 人类空间听觉的神经基础 140 7.3 人类听觉流分离的神经基础:简单的声音 143 7.3.1 使用有限注意力操控的研究 144 7.3.2 使用显式注意力操控的研究 147 7.4 人类听觉流分离的神经基础:语音 149 7.4.1 在固定噪声中使用语音的研究 150 7.4.2 使用竞争性语音流的研究 151 7.4.3 噪声中语音处理的神经解剖学 154 7.5 其他方面 155 7.5.1 时间相干性 155 7.5.2 自下而上与自上而下的注意 155 7.6 总结 156 参考文献 157 第8章 鸡尾酒会中婴幼儿与儿童的听觉加工 162 8.1 引言 162 8.2 听觉编码的发育 163 8.2.1 频谱分辨率与能量掩蔽 163 8.2.2 基频 164 8.2.3 时间分辨率 165 8.2.4 空间听觉 165 8.2.5 听觉–视觉对应关系 166 8.3 听觉场景分析的发育 166 8.3.1 在讲话中倾听语音 167 8.3.2 听觉场景分析中的线索 168 8.3.3 选择性注意的作用 175 8.4 总结、综合和未来方向 177 参考文献 178 第9章 鸡尾酒会中老年人的听觉加工 187 9.1 引言 188 9.2 听觉老化 189 9.2.1 外周 189 9.2.2 语音理解 189 9.2.3 时间加工的心理声学和语音加工的行为测量 190 9.3 听觉和认知老化的电生理学测量 193 9.3.1 脑干 193 9.3.2 皮层 193 9.3.3 调合年龄相关变化的行为和电生理学发现 194 9.4 语音理解中掩蔽声类型依赖的年龄相关差异 195 9.4.1 稳态掩蔽声 195 9.4.2 复杂和波动的非语音掩蔽声 196 9.4.3 语音掩蔽声 196 9.5 前景与背景声音的感知组织中年龄相关差异的行为测量 196 9.5.1 掩蔽的空间分离与释放 197 9.5.2 听觉流分离的形成速度 199 9.5.3 听觉空间注意 200 9.5.4 词汇和句子之上的语篇 201 9.5.5 记忆 202 9.6 认知老化与感觉认知之间的相互作用 203 9.6.1 认知老化 203 9.6.2 感觉认知之间的相互作用 203 9.6.3 脑可塑性与代偿 204 9.7 总结 204 参考文献 205 第10章 复杂听觉场景下植入人工耳蜗和助听器的听觉感知 214 10.1 引言 214 10.2 鸡尾酒会中的成人 215 10.2.1 制约表现的因素 215 10.2.2 限制听力损失个体表现的生理因素 216 10.2.3 设备 217 10.3 成人耳蜗植入 218 10.3.1 空间线索可用性 218 10.3.2 双侧植入耳蜗后成人的双耳能力 220 10.3.3 听觉定位 221 10.3.4 双耳掩蔽级差 221 10.3.5 双侧植入耳蜗后成人的掩蔽的空间释放 222 10.3.6 在听觉正常人的测试上模拟人工耳蜗处理的各个方面 225 10.4 使用助听器的成人 226 10.4.1 单侧装配与双侧装配的对比 226 10.4.2 双侧装配的益处 227 10.4.3 技术进步 227 10.5 儿科研究简介 228 10.5.1 研究双侧植入耳蜗儿童 228 10.5.2 双侧顺序植入耳蜗与双侧同时植入耳蜗 230 10.5.3 使用助听器的儿童 231 10.5.4 执行功能的可变性和影响 232 10.5.5 未来方向和临床应用 232 10.6 结论 233 参考文献 233 术语表 240 ---------------------------Python深度学习实战:基于TensorFlow和Keras的聊天机器人以及人脸、物体和语音识别--------------------------- 序 第1章 TensorFlow基础 1 1.1 张量 2 1.2 计算图与会话 2 1.3 常量、占位符与变量 4 1.4 占位符 6 1.5 创建张量 8 1.5.1 固定张量 9 1.5.2 序列张量 11 1.5.3 随机张量 11 1.6 矩阵操作 12 1.7 激活函数 13 1.7.1 双曲正切函数与Sigmoid函数 13 1.7.2 ReLU与ELU 15 1.7.3 ReLU6 15 1.8 损失函数 17 1.8.1 损失函数实例 18 1.8.2 常用的损失函数 18 1.9 优化器 19 1.9.1 优化器实例 20 1.9.2 常用的优化器 21 1.10 度量 21 1.10.1 度量实例 22 1.10.2 常用的度量 22 第2章 理解并运用Keras 25 2.1 深度学习模型构建的主要步骤 25 2.1.1 载入数据 26 2.1.2 预处理数据 27 2.1.3 定义模型 27 2.1.4 编译模型 29 2.1.5 拟合模型 29 2.1.6 评估模型 30 2.1.7 预测 30 2.1.8 保存与重载模型 31 2.1.9 可选:总结模型 31 2.2 改进Keras模型的附加步骤 32 2.3 Keras联合TensorFlow 33 第3章 多层感知机 35 3.1 人工神经网络 35 3.2 单层感知机 37 3.3 多层感知机 37 3.4 逻辑斯谛回归模型 38 第4章 TensorFlow中的回归到MLP 45 4.1 TensorFlow搭建模型的步骤 45 4.2 TensorFlow中的线性回归 46 4.3 逻辑斯谛回归模型 49 4.4 TensorFlow中的多层感知机 52 第5章 Keras中的回归到MLP 55 5.1 对数-线性模型 55 5.2 线性回归的Keras神经网络 56 5.3 逻辑斯谛回归 58 5.3.1 scikit-learn逻辑斯谛回归 58 5.3.2 逻辑斯谛回归的Keras神经网络 59 5.3.3 流行的MNIST数据:Keras中的逻辑斯谛回归 60 5.4 基于Iris数据的MLP 62 5.4.1 编写代码 62 5.4.2 构建一个序列Keras模型 63 5.5 基于MNIST数据的MLP数字分类 66 5.6 基于随机生成数据的MLP 68 第6章 卷积神经网络 71 6.1 CNN中的各种层 71 6.2 CNN结构 74 第7章 TensorFlow中的CNN 77 7.1 为什么用TensorFlow搭建CNN模型 77 7.2 基于MNIST数据集搭建图片分类器的TensorFlow代码 78 7.3 使用高级API搭建CNN模型 82 第8章 Keras中的CNN 83 8.1 在Keras中使用MNIST数据集搭建图片分类器 83 8.1.1 定义网络结构 85 8.1.2 定义模型架构 85 8.2 使用CIFAR-10数据集搭建图片分类器 86 8.2.1 定义网络结构 87 8.2.2 定义模型架构 88 8.3 预训练模型 89 第9章 RNN与LSTM 91 9.1 循环神经网络的概念 91 9.2 长短时记忆网络的概念 93 9.3 LSTM常见模式 93 9.4 序列预测 94 9.4.1 数字序列预测 94 9.4.2 序列分类 95 9.4.3 序列生成 95 9.4.4 序列到序列预测 95 9.5 利用LSTM模型处理时间序列预测问题 96 第10章 语音-文本转换及其逆过程 101 10.1 语音-文本转换 101 10.2 语音数据 102 10.3 语音特征:将语音映射为矩阵 103 10.4 声谱图:将语音映射为图像 104 10.5 利用MFCC特征构建语音识别分类器 104 10.6 利用声谱图构建语音识别分类器 105 10.7 开源方法 106 10.8 使用API的例子 107 10.8.1 使用PocketSphinx 107 10.8.2 使用Google Speech API 108 10.8.3 使用Google Cloud Speech API 108 10.8.4 使用Wit.ai API 108 10.8.5 使用Houndify API 109 10.8.6 使用IBM Speech to Text API 109 10.8.7 使用Bing Voice Recognition API 110 10.9 文本-语音转换 110 10.9.1 使用pyttsx 110 10.9.2 使用SAPI 111 10.9.3 使用SpeechLib 111 10.10 音频剪辑代码 111 10.11 认知服务提供商 112 10.11.1 Microsoft Azure 113 10.11.2 Amazon Cognitive Services 113 10.11.3 IBM Watson Services 113 10.12 语音分析的未来 113 第11章 创建聊天机器人 115 11.1 为什么是聊天机器人 116 11.2 聊天机器人的设计和功能 116 11.3 构建聊天机器人的步骤 116 11.3.1 预处理文本和消息 117 11.3.2 用API构建聊天机器人 130 11.4 聊天机器人开发的最佳实践 133 11.4.1 了解潜在用户 133 11.4.2 读入用户情感使得机器人情感更丰富 133 第12章 人脸检测与识别 135 12.1 人脸检测、人脸识别与人脸分析 135 12.2 OpenCV 136 12.2.1 特征脸 137 12.2.2 LBPH 137 12.2.3 费歇脸 138 12.3 检测人脸 139 12.4 跟踪人脸 141 12.5 人脸识别 144 12.6 基于深度学习的人脸识别 147 12.7 迁移学习 149 12.7.1 为什么要用迁移学习 150 12.7.2 迁移学习实例 150 12.7.3 计算迁移值 152 12.8 API 158 附录1 图像处理的Keras函数 161 附录2 可用的优质图像数据集 165 附录3 医学成像:DICOM文件格式 167 |