临床大数据分析与挖掘——基于Python和机器学习的临床决策

作者
孙丽萍
丛书名
出版社
电子工业出版社
ISBN
9787121400391
简要
简介
内容简介 本书不仅讲解了机器学习基本原理和基本方法,而且通过大量医疗领域的案例实现对医疗健康数据的处理和分析,能够在很大程度上辅助医护人员进行临床决策。通过本书学习,读者不仅能够掌握机器学习算法建模前的数据准备、筛选构造机器学习算法指标的特征工程、不同类别的机器学习算法,还能够掌握临床诊疗数据、电子病历档案数据及影像数据等多源异构数据的处理方法,以及医疗图像、文本等数据的读取、预处理、可视化等知识。同时,本书还介绍了具有开源、去编程化的TipDM 数据挖掘建模平台,通过拖曳的图形化操作就能实现数据分析的全流程。本书可以作为医学类院校数据科学与大数据技术专业的核心课程教材,以及医工专业的专业核心课程或选修课程教材。在此基础上,还可以作为临床、口腔、医技、检验、影像、公共卫生等医学类专业进阶层次的专业限选课程或拓展课程的教材。
目录
第1 章机器学习 1
1.1 机器学习简介1
1.1.1 机器学习的概念1
1.1.2 机器学习的应用领域1
1.2 机器学习通用流程2
1.2.1 目标分析2
1.2.2 数据准备3
1.2.3 特征工程4
1.2.4 模型训练与调优5
1.2.5 性能度量与模型应用6
1.3 Python 机器学习工具库简介6
1.3.1 数据准备相关工具库6
1.3.2 数据可视化相关工具库7
1.3.3 模型训练与评估相关工具库8
小结9
课后习题 .10
第 2 章数据准备 .12
2.1 数据质量校验.12
2.1.1 一致性校验.12
2.1.2 缺失值校验.15
2.1.3 异常值校验.17
2.2 数据分布与趋势探查.18
2.2.1 分布分析.18
2.2.2 对比分析.22
2.2.3 描述性统计分析.25
2.2.4 周期性分析.28
2.2.5 贡献度分析.29
2.2.6 相关性分析.31
VIII
2.3 数据清洗.35
2.3.1 缺失值处理.35
2.3.2 异常值处理.38
2.4 数据合并.39
2.4.1 数据堆叠.39
2.4.2 主键合并.43
小结.45
课后习题 .45
第 3 章特征工程 .48
3.1 特征变换.48
3.1.1 标准化.48
3.1.2 独热编码.54
3.1.3 离散化.55
3.2 特征选择.58
3.2.1 子集搜索与评价.58
3.2.2 过滤式选择.59
3.2.3 包裹式选择.59
3.2.4 嵌入式选择与L1 范数正则化.60
3.2.5 稀疏表示与字典学习.61
小结.63
课后习题 .63
第 4 章有监督学习 .66
4.1 有监督学习简介.66
4.2 性能度量.66
4.2.1 分类任务性能度量.66
4.2.2 回归任务性能度量.68
4.3 线性模型.69
4.3.1 线性模型简介.69
4.3.2 线性回归.69
4.3.3 逻辑回归.72
4.4 k 近邻分类.75
4.5 决策树.78
4.5.1 决策树简介.78
4.5.2 ID3 算法.79
4.5.3 C4.5 算法.81
4.5.4 CART 算法.83
4.6 支持向量机.86
4.6.1 支持向量机简介.86
4.6.2 线性支持向量机.87
4.6.3 非线性支持向量机.91
4.7 朴素贝叶斯.94
4.8 神经网络.98
4.8.1 神经网络介绍.98
4.8.2 BP 神经网络.99
4.9 集成学习104
4.9.1 Bagging 104
4.9.2 Boosting 106
4.9.3 Stacking 115
小结116
课后习题 116
第 5 章无监督学习 118
5.1 无监督学习简介118
5.2 降维118
5.2.1 PCA 118
5.2.2 核化线性降维121
5.3 聚类任务123
5.3.1 聚类性能度量指标124
5.3.2 距离计算125
5.3.3 原型聚类126
5.3.4 密度聚类137
5.3.5 层次聚类139
小结142
课后习题 142
第 6 章智能推荐 144
6.1 智能推荐简介144
6.1.1 推荐系统144
6.1.2 智能推荐的应用144
6.2 推荐系统性能度量146
6.2.1 离线实验评价指标146
6.2.2 用户调查评价指标148
6.2.3 在线实验评价指标149
6.3 基于关联规则的推荐技术149
6.3.1 关联规则和频繁项集150
6.3.2 Apriori 算法150
6.3.3 FP-Growth 算法154
6.4 基于协同过滤的推荐技术159
6.4.1 基于用户的协同过滤159
6.4.2 基于物品的协同过滤163
小结166
课后习题 167
第 7 章医疗保险的欺诈发现 169
7.1 目标分析169
7.1.1 背景169
7.1.2 数据说明170
7.1.3 分析目标171
7.2 数据准备172
7.2.1 描述性统计分析172
7.2.2 数据清洗172
7.2.3 分析投保人和医疗机构的信息173
7.3 特征工程177
7.3.1 特征选择177
7.3.2 特征变换178
7.4 模型训练182
7.5 性能度量184
7.5.1 结果分析184
7.5.2 聚类性能度量188
小结190
第 8 章中医证型关联规则分析 191
8.1 目标分析191
8.1.1 背景191
8.1.2 数据说明191
8.1.3 分析目标192
8.2 数据准备193
8.2.1 数据获取193
8.2.2 数据清洗195
8.3 特征工程196
8.3.1 特征选择196
8.3.2 特征变换197
8.4 模型训练201
8.5 性能度量202
8.5.1 结果分析203
8.5.2 模型应用204
小结204
第 9 章糖尿病遗传风险预测 205
9.1 目标分析205
9.1.1 背景205
9.1.2 数据说明206
9.1.3 分析目标207
9.2 数据准备207
9.2.1 数据探索207
9.2.2 数据清洗209
9.3 特征工程209
9.4 模型构建211
9.4.1 交叉验证211
9.4.2 模型训练213
9.5 性能度量214
9.5.1 结果分析214
9.5.2 模型评价216
小结216
第 10 章基于深度残差神经网络的皮肤癌检测217
10.1 目标分析217
10.1.1 背景217
10.1.2 图像数据说明218
10.1.3 分析方法与过程219
10.2 图像数据预处理219
10.2.1 图像预处理219
10.2.2 查看处理后的图像222
10.3 模型构建223
10.3.1 卷积神经网络(CNN) 223
10.3.2 残差网络(Residual Network) 226
10.3.3 ImageDataGenerator 参数说明228
10.3.4 训练深度残差神经网络模型229
10.4 性能度量231
10.4.1 性能分析231
10.4.2 结果分析232
小结234
第 11 章基于 TipDM 数据挖掘建模平台实现医疗保险的欺诈发现236
11.1 TipDM 数据挖掘建模平台236
11.1.1 首页237
11.1.2 数据源238
11.1.3 工程239
11.1.4 系统组件240
11.1.5 TipDM 数据挖掘建模平台的本地化部署241
11.2 快速构建医疗保险的欺诈发现工程243
11.2.1 获取数据244
11.2.2 数据准备247
11.2.3 特征工程250
11.2.4 模型训练253
小结255
参考文献 256

推荐

车牌查询
桂ICP备20004708号-3