[套装书]机器学习中的概率统计:Python语言描述+Python金融大数据风控建模实战:基于机器学习(2册)

作者
张雨萌 王青天 孔越
丛书名
智能系统与技术丛书
出版社
机械工业出版社
ISBN
9782101061450
简要
简介
内容简介书籍计算机书籍 ---------------------------机器学习中的概率统计:Python语言描述--------------------------- 内容简介 本书围绕机器学习算法中涉及的概率统计知识展开介绍,沿着概率思想、变量分布、参数估计、随机过程和统计推断的知识主线进行讲解,结合数学的本质内涵,用浅显易懂的语言讲透深刻的数学思想,帮助读者构建理论体系。同时,作者在讲解的过程中注重应用场景的延伸,并利用Python工具无缝对接工程应用,帮助读者学以致用。 ?全书共5章。 ?第1章以条件概率和独立性作为切入点,帮助读者建立认知概率世界的正确视角。 ?第2章介绍随机变量的基础概念和重要分布类型,并探讨多元随机变量间的重要关系。 ?第3章介绍极限思维以及蒙特卡罗方法,并重点分析极大似然估计方法以及有偏无偏等重要性质,最后拓展到含有隐变量的参数估计问题,介绍EM算法的原理及其应用。 ?第4章由静态的随机变量过渡到动态的随机过程,重点介绍马尔可夫过程和隐马尔可夫模型。 ?第5章聚焦马尔可夫链-蒙特卡罗方法,并列举实例展示Metropolis-Hastings和Gibbs的具体采样过程。 ---------------------------Python金融大数据风控建模实战:基于机器学习--------------------------- 本书的定位是一本Python金融大数据风控建模的入门级读物。全书包括4篇:背景篇旨在由浅入深地引领读者走进金融科技领域,了解智能风控,系统、全面地认识评分卡;基础篇围绕评分卡构建的全流程,向读者一一讲述每个环节的理论知识,随之进行代码实践,帮助读者获得从0至1构建评分卡模型的工程能力;进阶篇旨在从建模中可能遇到问题出发,提供一些问题解决或模型提升的思路,使建立的评分卡具有更好的业务适应及预测能力;实战篇结合真实信贷场景的数据集,带领读者完成从数据分析至评分卡生成的各个流程,旨在让读者体验真实场景,具备评分卡实战能力,亦可作为读者实际工作中构建评分卡的参考。本书适合有一定Python语言基础的金融风控相关技术人员阅读,也适合想要了解人工智能如何在金融场景应用的开发及业务人员。另外,也适合专业培训机构的学员和相关专业的学生。 .
目录



---------------------------机器学习中的概率统计:Python语言描述---------------------------



前言
第1章 概率思想:构建理论基础 1
1.1 理论基石:条件概率、独立性与贝叶斯 1
1.1.1 从概率到条件概率 1
1.1.2 条件概率的具体描述 2
1.1.3 条件概率的表达式分析 3
1.1.4 两个事件的独立性 4
1.1.5 从条件概率到全概率公式 5
1.1.6 聚焦贝叶斯公式 6
1.1.7 本质内涵:由因到果,由果推因 7
1.2 事件的关系:深入理解独立性 8
1.2.1 重新梳理两个事件的独立性 8
1.2.2 不相容与独立性 8
1.2.3 条件独立 9
1.2.4 独立与条件独立 11
1.2.5 独立重复实验 11
第2章 变量分布:描述随机世界 13
2.1 离散型随机变量:分布与数字特征 13
2.1.1 从事件到随机变量 13
2.1.2 离散型随机变量及其要素 14
2.1.3 离散型随机变量的分布列 15
2.1.4 分布列和概率质量函数 16
2.1.5 二项分布及二项随机变量 17
2.1.6 几何分布及几何随机变量 21
2.1.7 泊松分布及泊松随机变量 24
2.2 连续型随机变量:分布与数字特征 27
2.2.1 概率密度函数 27
2.2.2 连续型随机变量区间概率的计算 29
2.2.3 连续型随机变量的期望与方差 29
2.2.4 正态分布及正态随机变量 30
2.2.5 指数分布及指数随机变量 33
2.2.6 均匀分布及其随机变量 35
2.3 多元随机变量(上):联合、边缘与条件 38
2.3.1 实验中引入多个随机变量 38
2.3.2 联合分布列 38
2.3.3 边缘分布列 39
2.3.4 条件分布列 40
2.3.5 集中梳理核心的概率理论 44
2.4 多元随机变量(下):独立与相关 46
2.4.1 随机变量与事件的独立性 46
2.4.2 随机变量之间的独立性 47
2.4.3 独立性示例 48
2.4.4 条件独立的概念 48
2.4.5 独立随机变量的期望和方差 50
2.4.6 随机变量的相关性分析及量化方法 52
2.4.7 协方差及协方差矩阵 52
2.4.8 相关系数的概念 54
2.5 多元随机变量实践:聚焦多元正态分布 55
2.5.1 再谈相关性:基于二元标准正态分布 55
2.5.2 二元一般正态分布 57
2.5.3 聚焦相关系数 60
2.5.4 独立和相关性的关系 64
2.6 多元高斯分布:参数特征和几何意义 66
2.6.1 从一元分布到多元分布 66
2.6.2 多元高斯分布的参数形式 67
2.6.3 二元高斯分布的具体示例 68
2.6.4 多元高斯分布的几何特征 71
2.6.5 二元高斯分布几何特征实例分析 74
第3章 参数估计:探寻最大可能 77
3.1 极限思维:大数定律与中心极限定理 77
3.1.1 一个背景话题 77
3.1.2 大数定律 78
3.1.3 大数定律的模拟 80
3.1.4 中心极限定理 83
3.1.5 中心极限定理的工程意义 84
3.1.6 中心极限定理的模拟 85
3.1.7 大数定律的应用:蒙特卡罗方法 86
3.2 推断未知:统计推断的基本框架 89
3.2.1 进入统计学 89
3.2.2 统计推断的例子 90
3.2.3 统计推断中的一些重要概念 91
3.2.4 估计量的偏差与无偏估计 92
3.2.5 总体均值的估计 93
3.2.6 总体方差的估计 95
3.3 极大似然估计 100
3.3.1 极大似然估计法的引例 100
3.3.2 似然函数的由来 102
3.3.3 极大似然估计的思想 103
3.3.4 极大似然估计值的计算 105
3.3.5 简单极大似然估计案例 106
3.3.6 高斯分布参数的极大似然估计 107
3.4 含有隐变量的参数估计问题 110
3.4.1 参数估计问题的回顾 110
3.4.2 新情况:场景中含有隐变量 111
3.4.3 迭代法:解决含有隐变量情形的抛硬币问题 112
3.4.4 代码实验 115
3.5 概率渐增:EM算法的合理性 118
3.5.1 EM算法的背景介绍 119
3.5.2 先抛出EM算法的迭代公式 119
3.5.3 EM算法为什么是有效的 120
3.6 探索EM公式的底层逻辑与由来 123
3.6.1 EM公式中的E步和M步 124
3.6.2 剖析EM算法的由来 124
3.7 探索高斯混合模型:EM 迭代实践 127
3.7.1 高斯混合模型的引入 128
3.7.2 从混合模型的角度看内部机理 129
3.7.3 高斯混合模型的参数估计 131
3.8 高斯混合模型的参数求解 132
3.8.1 利用 EM 迭代模型参数的思路 132
3.8.2 参数估计示例 136
3.8.3 高斯混合模型的应用场景 139
第4章 随机过程:聚焦动态特征 145
4.1 由静向动:随机过程导引 145
4.1.1 随机过程场景举例1:博彩 146
4.1.2 随机过程场景举例2:股价的变化 150
4.1.3 随机过程场景举例3:股价变化过程的展现 152
4.1.4 两类重要的随机过程概述 154
4.2 状态转移:初识马尔可夫链 155
4.2.1 马尔可夫链三要素 155
4.2.2 马尔可夫性:灵魂特征 156
4.2.3 转移概率和状态转移矩阵 157
4.2.4 马尔可夫链性质的总结 158
4.2.5 一步到达与多步转移的含义 159
4.2.6 多步转移与矩阵乘法 160
4.2.7 路径概率问题 163
4.3 变与不变:马尔可夫链的极限与稳态 164
4.3.1 极限与初始状态无关的情况 164
4.3.2 极限依赖于初始状态的情况 165
4.3.3 吸收态与收敛分析 167
4.3.4 可达与常返 168
4.3.5 周期性问题 171
4.3.6 马尔可夫链的稳态分析和判定 172
4.3.7 稳态的求法 174
4.4 隐马尔可夫模型:明暗两条线 176
4.4.1 从马尔可夫链到隐马尔可夫模型 176
4.4.2 典型实例1:盒子摸球实验 177
4.4.3 典型实例2:小宝宝的日常生活 180
4.4.4 隐马尔可夫模型的外在表征 181
4.4.5 推动模型运行的内核三要素 182
4.4.6 关键性质:齐次马尔可夫性和观测独立性 183
4.5 概率估计:隐马尔可夫模型观测序列描述 183
4.5.1 隐马尔可夫模型的研究内容 183
4.5.2 模型研究问题的描述 185
4.5.3 一个直观的思路 186
4.5.4 更优的方法:前向概率算法 187
4.5.5 概率估计实践 190
4.5.6 代码实践 192
4.6 状态解码:隐马尔可夫模型隐状态揭秘 194
4.6.1 隐状态解码问题的描述 194
4.6.2 最大路径概率与维特比算法 195
4.6.3 应用维特比算法进行解码 197
4.6.4 维特比算法的案例实践 199
4.6.5 代码实践 202
4.7 连续域上的无限维:高斯过程 204
4.7.1 高斯过程的一个实际例子 205
4.7.2 高斯过程的核心要素和严谨描述 206
4.7.3 径向基函数的代码演示 207
4.7.4 高斯过程回归原理详解 208
4.7.5 高斯过程回归代码演示 210
第5章 统计推断:贯穿近似策略 215
5.1 统计推断的基本思想和分类 215
5.1.1 统计推断的根源和场景 215
5.1.2 后验分布:推断过程的关注重点 216
5.1.3 精确推断和近似推断 216
5.1.4 确定性近似:变分推断概述 217
5.2 随机近似方法 219
5.2.1 蒙特卡罗方法的理论支撑 219
5.2.2 随机近似的核心:蒙特卡罗 220
5.2.3 接受-拒绝采样的问题背景 221
5.2.4 接受-拒绝采样的方法和步骤 221
5.2.5 接受-拒绝采样的实践 222
5.2.6 接受-拒绝采样方法背后的内涵挖掘 225
5.2.7 重要性采样 226
5.2.8 两种采样方法的问题及思考 227
5.3 采样绝佳途径:借助马尔可夫链的稳态性质 228
5.3.1 马尔可夫链回顾 228
5.3.2 核心:马尔可夫链的平稳分布 229
5.3.3 马尔可夫链进入稳态的转移过程 231
5.3.4 稳态及转移过程演示 231
5.3.5 马尔可夫链稳态的价值和意义 235
5.3.6 基于马尔可夫链进行采样的原理分析 236
5.3.7 采样过程实践与分析 238
5.3.8 一个显而易见的问题和难点 242
5.4 马尔可夫链-蒙特卡罗方法详解 242
5.4.1 稳态判定:细致平稳条件 243
5.4.2 Metropolis-Hastings采样方法的原理 244
5.4.3 如何理解随机游走叠加接受概率 245
5.4.4 如何实现随机游走叠加接受概率 247
5.4.5 建议转移概率矩阵Q的设计 247
5.4.6 Metropolis-Hastings方法的步骤和代码演示 251
5.5 Gibbs采样方法简介 253
5.5.1 Gibbs方法核心流程 253
5.5.2 Gibbs采样的合理性 255
5.5.3 Gibbs采样代码实验 256



---------------------------Python金融大数据风控建模实战:基于机器学习---------------------------


前言
第1篇 智能风控背景
第1章 金融科技介绍 2
1.1 金融科技的前世今生 2
1.2 金融科技正深刻地改变和塑造着金融业态 4
1.3 新兴科技不断强化金融科技的应用能力 5
1.4 金融风险控制面临着前所未有的挑战 7
1.5 智能风控和评分卡 8
1.6 评分卡模型的开发流程 11
第2章 机器学习介绍 17
2.1 机器学习的概念 17
2.2 机器学习的分类 17
2.2.1 有监督学习 18
2.2.2 无监督学习 18
2.2.3 强化学习 19
2.3 机器学习与人工智能的关系 20
2.4 机器学习与数学的关系 20
2.5 机器学习与深度学习 22
第3章 评分卡模型介绍 25
3.1 申请评分卡 25
3.1.1 数据获取 26
3.1.2 好坏样本定义 26
3.1.3 观察期与表现期确定 29
3.1.4 样本分层 32
3.1.5 数据清洗与预处理 33
3.1.6 特征工程 33
3.1.7 模型训练与优化 35
3.2 行为评分卡 36
3.2.1 数据获取 37
3.2.2 时间窗口 37
3.2.3 特征工程 38
3.3 催收评分卡 40
3.3.1 催收评分卡分类 40
3.3.2 催收策略 41
3.4 反欺诈模型 42
3.4.1 欺诈风险与信用风险比较 42
3.4.2 欺诈模型好坏样本定义 43
3.4.3 欺诈主体分析 44
3.4.4 反欺诈方法介绍 44
第2篇 评分卡理论与实战基础
第4章 数据清洗与预处理 48
4.1 数据集成 49
4.2 数据清洗 50
4.3 探索性数据分析 52
4.4 Python代码实践 54
4.4.1 数据集成 54
4.4.2 数据清洗 58
4.4.3 探索性数据分析 61
第5章 变量编码方法 66
5.1 无监督编码 66
5.1.1 One-hot编码 66
5.1.2 Dummy variable编码 68
5.1.3 Label编码 69
5.2 有监督编码 70
5.2.1 WOE编码 70
5.2.2 WOE编码与One-hot编码比较 73
5.3 Python代码实践 75
5.3.1 One-hot编码 76
5.3.2 Dummy variable编码 80
5.3.3 Label编码 82
5.3.4 WOE编码 85
第6章 变量分箱方法 89
6.1 变量分箱流程 91
6.2 最优Chi-merge卡方分箱方法 92
6.3 Best-KS分箱方法 94
6.4 最优IV分箱方法 95
6.5 基于树的最优分箱方法 95
6.6 Python代码实践 98
6.6.1 最优Chi-merge分箱 98
6.6.2 最优IV分箱 106
6.6.3 基于树的分箱 107
第7章 变量选择 109
7.1 过滤法变量选择 109
7.2 包装法变量选择 112
7.3 嵌入法变量选择 113
7.4 Python代码实践 115
7.4.1 过滤法变量选择 115
7.4.2 包装法变量选择 118
7.4.3 嵌入法变量选择 120
第8章 Logistic回归模型 123
8.1 Logistic回归模型原理 123
8.2 过拟合与欠拟合 128
8.3 Python代码实践 130
第9章 模型的评估指标 136
9.1 正负样本的选择 137
9.2 标准评估指标 139
9.3 概率密度评估指标 141
9.4 概率分布评估指标 144
9.5 Python代码实践 153
第10章 评分卡分数转化 157
10.1 由概率到分数的转换 157
10.2 变量的分值计算 159
10.3 评分卡性能评估 161
10.4 Python代码实践 163
第11章 模型在线监控 169
11.1 稳定性监控 169
11.2 单调性监控 172
11.3 性能监控指标 173
11.4 Python代码实践 174
第3篇 评分卡理论与实战进阶
第12章 样本不均衡处理 180
12.1 数据层下采样样本不均衡的处理方法 181
12.1.1 随机下采样方法 181
12.1.2 样本邻域选择的下采样方法 182
12.1.3 样本邻域清理的下采样方法 184
12.1.4 Bagging集成的下采样方法 185
12.1.5 Boosting集成的下采样方法 187
12.2 数据层上采样样本不均衡的处理方法 188
12.2.1 随机上采样方法 188
12.2.2 SMOTE样本生成方法 189
12.2.3 Borderline-SMOTE样本生成方法 190
12.3 算法层样本不均衡的处理方法 190
12.4 模型评估层样本不均衡的处理方法 191
12.5 Python代码实践 191
12.5.1 数据层下采样样本不均衡处理代码实现 192
12.5.2 数据层上采样样本不均衡处理代码实现 201
第13章 特征工程进阶 206
13.1 数据层特征工程 206
13.2 算法层特征工程 211
13.2.1 基于树模型的特征生成 211
13.2.2 FM特征交叉 215
13.3 Python代码实践 219
13.3.1 数据层特征工程代码实现 219
13.3.2 算法层特征工程代码实现 222
第14章 决策树模型 229
14.1 决策树模型的原理 229
14.2 决策树学习 229
14.3 决策树与过拟合 234
14.4 Python代码实践 236
第15章 神经网络模型 241
15.1 神经元模型 241
15.2 神经网络的网络结构 242
15.3 神经网络的学习策略 247
15.4 Python代码实践 253
第16章 支持向量机模型 257
16.1 感知器模型 257
16.1.1 感知器模型的原理 257
16.1.2 感知器与支持向量机模型 260
16.2 线性可分支持向量机 261
16.3 线性支持向量机 267
16.4 非线性支持向量机 272
16.5 感知器相关模型比较 278
16.6 Python代码实践 280
16.6.1 线性支持向量机模型代码实现 280
16.6.2 非线性支持向量机模型代码实现 282
第17章 集成学习 286
17.1 Bagging与Boosting对比 286
17.2 Random Forest模型原理 288
17.3 Adaboost模型原理 289
17.4 GBDT模型原理 292
17.5 Xgboost模型原理 297
17.6 Python代码实践 304
17.6.1 Random Forest模型 304
17.6.2 Adaboost模型 308
17.6.3 GBDT模型 310
17.6.4 Xgboost模型 313
第18章 模型融合 317
18.1 Blending方法原理 317
18.2 Stacking方法原理 320
18.3 Python代码实践 322
18.3.1 Blending模型融合代码实现 322
18.3.2 Stacking模型融合代码实现 325
第4篇 Lending Club数据集实战
第19章 完整的模型开发实现 330
19.1 数据源介绍 330
19.2 数据的获取与预处理 331
19.2.1 数据准备 331
19.2.2 好坏样本定义 334
19.2.3 数据清洗与预处理 335
19.3 特征工程 341
19.3.1 简单的特征工程 341
19.3.2 变量分箱与编码 342
19.3.3 变量选择 348
19.4 模型构建与评估 351
19.4.1 模型构建与优化 351
19.4.2 模型评估 352
19.5 评分卡生成 353
附录A 主要符号表 357
附录B 开发环境简介 358
参考文献 362

推荐

车牌查询
桂ICP备20004708号-3