[套装书]听觉系统与鸡尾酒会问题+Python深度学习实战:基于TensorFlow和Keras的聊天机器人以及人脸、物体和语音识别(2册)

作者
约翰·C.米德尔布鲁克斯 尤纳森·Z.西蒙 阿瑟·N.波珀 理查德·R.费伊 纳温·库马尔·马纳西
丛书名
出版社
机械工业出版社
ISBN
9782101129205
简要
简介
内容简介书籍计算机书籍 ---------------------------听觉系统与鸡尾酒会问题--------------------------- 语音识别技术得益于深度学习的发展,已经走进了我们的生活。但是,复杂开放环境下的语音交互是目前语音识别技术发展中无法回避的挑战性难题。本书面向这个主题,从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意,进行了全方位地分析;从信号处理的技术实现、计算建模以及听障应用的角度进行了详细地阐述。 ---------------------------Python深度学习实战:基于TensorFlow和Keras的聊天机器人以及人脸、物体和语音识别--------------------------- 本书讨论使用TensorFlow和Keras等框架构建深度学习应用程序,集中于所需的模型和算法,帮助你在短时间内提高实践技能。内容涵盖了聊天机器人、自然语言处理、人脸和对象识别等主题。目标是提供创建能够执行深度学习的程序所需的概念、技术和算法实现。
目录



---------------------------听觉系统与鸡尾酒会问题---------------------------


推荐语
译者序
前言
第1章 解析听觉场景的耳和脑机制 1
1.1 引言 1
1.2 一些关键概念 2
1.3 本书概述 2
1.4 耳和脑 4
参考文献 5
第2章 听觉客体的形成和选择 6
2.1 引言 6
2.1.1 鸡尾酒会:令人困惑的混合声音和受限的加工容量 7
2.1.2 基于客体的注意 8
2.1.3 异构化而非层次化加工 9
2.1.4 历史笔记 9
2.2 解析声学场景:听觉客体形成 11
2.2.1 局部频谱时间线索支持“音节层面”的客体形成 11
2.2.2 高阶特征将音节联结成“流” 12
2.2.3 开放问题 13
2.3 聚焦注意:选择什么去加工 14
2.3.1 自上而下控制指导选择 14
2.3.2 自下而上显著性影响注意 14
2.3.3 从不完美的客体中提取语义 15
2.4 基于客体听觉选择性注意的感知结果 15
2.4.1 分散注意的失败 15
2.4.2 客体形成和选择之间的强制性交互 16
2.4.3 转换注意的代价 17
2.5 支持客体形成的神经机制 17
2.6 支持客体选择的神经机制 18
2.6.1 控制注意的视觉认知网络 18
2.6.2 听觉空间注意调用视觉定向和重定向网络 19
2.6.3 非空间听觉注意调动不同的听觉专用网络 20
2.6.4 感知模态和任务要求影响网络活动 20
2.6.5 对关注语音的神经响应夹带 22
2.6.6 关注听觉注意的其他神经特征 23
2.7 总结 23
参考文献 24
第3章 能量掩蔽和掩蔽释放 34
3.1 引言 34
3.2 通过基频进行区分 36
3.2.1 基频差值的影响 36
3.2.2 选择一个公共基频的多个谐波分量 37
3.2.3 时域分析 39
3.2.4 外周非线性的影响 40
3.2.5 消除机制 40
3.2.6 加工层级 41
3.2.7 小结 42
3.3 关于包络波动的掩蔽和掩蔽释放 42
3.3.1 在“波谷”中聆听 43
3.3.2 外周非线性的影响 44
3.3.3 调制掩蔽 44
3.3.4 噪声中的内在调制 45
3.3.5 基于调制滤波器组的模型 47
3.3.6 听觉受损者的“波谷聆听”效应 47
3.3.7 小结 49
3.4 掩蔽的空间释放 49
3.4.1 较优耳听觉 50
3.4.2 双耳去掩蔽 52
3.4.3 “迟钝”的问题 53
3.4.4 掩蔽的空间释放模型 53
3.4.5 小结 54
3.5 其他机制 54
3.5.1 频率调制对突出效果的影响 54
3.5.2 起始时间差异与适应的潜在作用 55
3.6 总结 55
参考文献 56
第4章 语音识别中的信息掩蔽 61
4.1 引言 61
4.2 混叠语音掩蔽案例的研究历史 62
4.3 确定混叠语音掩蔽中的能量掩蔽和信息掩蔽 64
4.3.1 不确定性 65
4.3.2 控制/估计能量掩蔽 67
4.3.3 语言变量 70
4.4 双耳分析模型在混叠语音掩蔽中的应用 79
4.5 总结 84
参考文献 85
第5章 鸡尾酒会问题的建模 90
5.1 引言 90
5.2 定义“鸡尾酒会问题”中的问题 91
5.3 鸡尾酒会问题建模准则 93
5.3.1 算法策略 93
5.3.2 神经学基础 98
5.4 鸡尾酒会问题的自下而上模型 99
5.5 自上而下的过程和鸡尾酒会问题 101
5.6 总结 102
参考文献 103
第6章 语音空间流分离 112
6.1 引言 112
6.2 基于心理物理学的空间流分离分析 113
6.2.1 空间线索对语音流整合的微弱掩蔽 114
6.2.2 基于空间线索的鲁棒流分离 115
6.2.3 流分离的空间敏锐度 116
6.2.4 空间流分离的声学线索 118
6.3 一种用于空间流分离的自下向上机制 121
6.3.1 初级听觉皮层的空间流分离 122
6.3.2 皮质神经元的空间节律性掩蔽释放 125
6.3.3 一种自下而上的空间流分离机制 127
6.4 用于空间定位和流分离的“公共”和“专用”空间表示 128
6.5 注意客体的选择 130
6.5.1 行为动物刺激特异性的任务依赖性调节 130
6.5.2 人类神经生理学中的客体选择 131
6.6 总结、综合和未来方向 132
参考文献 133
第7章 人类听觉神经科学与鸡尾酒会问题 138
7.1 引言 139
7.1.1 常用实验方法 139
7.1.2 本章主题 140
7.2 人类空间听觉的神经基础 140
7.3 人类听觉流分离的神经基础:简单的声音 143
7.3.1 使用有限注意力操控的研究 144
7.3.2 使用显式注意力操控的研究 147
7.4 人类听觉流分离的神经基础:语音 149
7.4.1 在固定噪声中使用语音的研究 150
7.4.2 使用竞争性语音流的研究 151
7.4.3 噪声中语音处理的神经解剖学 154
7.5 其他方面 155
7.5.1 时间相干性 155
7.5.2 自下而上与自上而下的注意 155
7.6 总结 156
参考文献 157
第8章 鸡尾酒会中婴幼儿与儿童的听觉加工 162
8.1 引言 162
8.2 听觉编码的发育 163
8.2.1 频谱分辨率与能量掩蔽 163
8.2.2 基频 164
8.2.3 时间分辨率 165
8.2.4 空间听觉 165
8.2.5 听觉–视觉对应关系 166
8.3 听觉场景分析的发育 166
8.3.1 在讲话中倾听语音 167
8.3.2 听觉场景分析中的线索 168
8.3.3 选择性注意的作用 175
8.4 总结、综合和未来方向 177
参考文献 178
第9章 鸡尾酒会中老年人的听觉加工 187
9.1 引言 188
9.2 听觉老化 189
9.2.1 外周 189
9.2.2 语音理解 189
9.2.3 时间加工的心理声学和语音加工的行为测量 190
9.3 听觉和认知老化的电生理学测量 193
9.3.1 脑干 193
9.3.2 皮层 193
9.3.3 调合年龄相关变化的行为和电生理学发现 194
9.4 语音理解中掩蔽声类型依赖的年龄相关差异 195
9.4.1 稳态掩蔽声 195
9.4.2 复杂和波动的非语音掩蔽声 196
9.4.3 语音掩蔽声 196
9.5 前景与背景声音的感知组织中年龄相关差异的行为测量 196
9.5.1 掩蔽的空间分离与释放 197
9.5.2 听觉流分离的形成速度 199
9.5.3 听觉空间注意 200
9.5.4 词汇和句子之上的语篇 201
9.5.5 记忆 202
9.6 认知老化与感觉认知之间的相互作用 203
9.6.1 认知老化 203
9.6.2 感觉认知之间的相互作用 203
9.6.3 脑可塑性与代偿 204
9.7 总结 204
参考文献 205
第10章 复杂听觉场景下植入人工耳蜗和助听器的听觉感知 214
10.1 引言 214
10.2 鸡尾酒会中的成人 215
10.2.1 制约表现的因素 215
10.2.2 限制听力损失个体表现的生理因素 216
10.2.3 设备 217
10.3 成人耳蜗植入 218
10.3.1 空间线索可用性 218
10.3.2 双侧植入耳蜗后成人的双耳能力 220
10.3.3 听觉定位 221
10.3.4 双耳掩蔽级差 221
10.3.5 双侧植入耳蜗后成人的掩蔽的空间释放 222
10.3.6 在听觉正常人的测试上模拟人工耳蜗处理的各个方面 225
10.4 使用助听器的成人 226
10.4.1 单侧装配与双侧装配的对比 226
10.4.2 双侧装配的益处 227
10.4.3 技术进步 227
10.5 儿科研究简介 228
10.5.1 研究双侧植入耳蜗儿童 228
10.5.2 双侧顺序植入耳蜗与双侧同时植入耳蜗 230
10.5.3 使用助听器的儿童 231
10.5.4 执行功能的可变性和影响 232
10.5.5 未来方向和临床应用 232
10.6 结论 233
参考文献 233
术语表 240



---------------------------Python深度学习实战:基于TensorFlow和Keras的聊天机器人以及人脸、物体和语音识别---------------------------



第1章 TensorFlow基础 1
1.1 张量 2
1.2 计算图与会话 2
1.3 常量、占位符与变量 4
1.4 占位符 6
1.5 创建张量 8
1.5.1 固定张量 9
1.5.2 序列张量 11
1.5.3 随机张量 11
1.6 矩阵操作 12
1.7 激活函数 13
1.7.1 双曲正切函数与Sigmoid函数 13
1.7.2 ReLU与ELU 15
1.7.3 ReLU6 15
1.8 损失函数 17
1.8.1 损失函数实例 18
1.8.2 常用的损失函数 18
1.9 优化器 19
1.9.1 优化器实例 20
1.9.2 常用的优化器 21
1.10 度量 21
1.10.1 度量实例 22
1.10.2 常用的度量 22
第2章 理解并运用Keras 25
2.1 深度学习模型构建的主要步骤 25
2.1.1 载入数据 26
2.1.2 预处理数据 27
2.1.3 定义模型 27
2.1.4 编译模型 29
2.1.5 拟合模型 29
2.1.6 评估模型 30
2.1.7 预测 30
2.1.8 保存与重载模型 31
2.1.9 可选:总结模型 31
2.2 改进Keras模型的附加步骤 32
2.3 Keras联合TensorFlow 33
第3章 多层感知机 35
3.1 人工神经网络 35
3.2 单层感知机 37
3.3 多层感知机 37
3.4 逻辑斯谛回归模型 38
第4章 TensorFlow中的回归到MLP 45
4.1 TensorFlow搭建模型的步骤 45
4.2 TensorFlow中的线性回归 46
4.3 逻辑斯谛回归模型 49
4.4 TensorFlow中的多层感知机 52
第5章 Keras中的回归到MLP 55
5.1 对数-线性模型 55
5.2 线性回归的Keras神经网络 56
5.3 逻辑斯谛回归 58
5.3.1 scikit-learn逻辑斯谛回归 58
5.3.2 逻辑斯谛回归的Keras神经网络 59
5.3.3 流行的MNIST数据:Keras中的逻辑斯谛回归 60
5.4 基于Iris数据的MLP 62
5.4.1 编写代码 62
5.4.2 构建一个序列Keras模型 63
5.5 基于MNIST数据的MLP数字分类 66
5.6 基于随机生成数据的MLP 68
第6章 卷积神经网络 71
6.1 CNN中的各种层 71
6.2 CNN结构 74
第7章 TensorFlow中的CNN 77
7.1 为什么用TensorFlow搭建CNN模型 77
7.2 基于MNIST数据集搭建图片分类器的TensorFlow代码 78
7.3 使用高级API搭建CNN模型 82
第8章 Keras中的CNN 83
8.1 在Keras中使用MNIST数据集搭建图片分类器 83
8.1.1 定义网络结构 85
8.1.2 定义模型架构 85
8.2 使用CIFAR-10数据集搭建图片分类器 86
8.2.1 定义网络结构 87
8.2.2 定义模型架构 88
8.3 预训练模型 89
第9章 RNN与LSTM 91
9.1 循环神经网络的概念 91
9.2 长短时记忆网络的概念 93
9.3 LSTM常见模式 93
9.4 序列预测 94
9.4.1 数字序列预测 94
9.4.2 序列分类 95
9.4.3 序列生成 95
9.4.4 序列到序列预测 95
9.5 利用LSTM模型处理时间序列预测问题 96
第10章 语音-文本转换及其逆过程 101
10.1 语音-文本转换 101
10.2 语音数据 102
10.3 语音特征:将语音映射为矩阵 103
10.4 声谱图:将语音映射为图像 104
10.5 利用MFCC特征构建语音识别分类器 104
10.6 利用声谱图构建语音识别分类器 105
10.7 开源方法 106
10.8 使用API的例子 107
10.8.1 使用PocketSphinx 107
10.8.2 使用Google Speech API 108
10.8.3 使用Google Cloud Speech API 108
10.8.4 使用Wit.ai API 108
10.8.5 使用Houndify API 109
10.8.6 使用IBM Speech to Text API 109
10.8.7 使用Bing Voice Recognition API 110
10.9 文本-语音转换 110
10.9.1 使用pyttsx 110
10.9.2 使用SAPI 111
10.9.3 使用SpeechLib 111
10.10 音频剪辑代码 111
10.11 认知服务提供商 112
10.11.1 Microsoft Azure 113
10.11.2 Amazon Cognitive Services 113
10.11.3 IBM Watson Services 113
10.12 语音分析的未来 113
第11章 创建聊天机器人 115
11.1 为什么是聊天机器人 116
11.2 聊天机器人的设计和功能 116
11.3 构建聊天机器人的步骤 116
11.3.1 预处理文本和消息 117
11.3.2 用API构建聊天机器人 130
11.4 聊天机器人开发的最佳实践 133
11.4.1 了解潜在用户 133
11.4.2 读入用户情感使得机器人情感更丰富 133
第12章 人脸检测与识别 135
12.1 人脸检测、人脸识别与人脸分析 135
12.2 OpenCV 136
12.2.1 特征脸 137
12.2.2 LBPH 137
12.2.3 费歇脸 138
12.3 检测人脸 139
12.4 跟踪人脸 141
12.5 人脸识别 144
12.6 基于深度学习的人脸识别 147
12.7 迁移学习 149
12.7.1 为什么要用迁移学习 150
12.7.2 迁移学习实例 150
12.7.3 计算迁移值 152
12.8 API 158
附录1 图像处理的Keras函数 161
附录2 可用的优质图像数据集 165
附录3 医学成像:DICOM文件格式 167

推荐

车牌查询
桂ICP备20004708号-3