概率与统计:计算机科学视角

作者
[美]大卫·福赛斯(David Forsyth)
丛书名
统计学精品译丛
出版社
机械工业出版社
ISBN
9787111695844
简要
简介
内容简介书籍数学书籍 本书针对计算机科学专业的本科生,旨在揭示概率和统计的思想。全书共分为五部分,第I部分数据集的描述,涵盖各种描述性统计量(均值、标准差、方差)、一维数据集的可视化方法,以及散点图、相关性和二维数据集的描述;第II部分概率,内容涵盖离散型概率、条件概率、连续型概率、Markov不等式、Chebyshev不等式及弱大数定律等;第III部分推断,涵盖样本、总体、置信区间、统计显著性、试验设计、方差分析和简单贝叶斯推断等;第IV部分工具,涵盖主成分分析、zui近邻分类、朴素贝叶斯分类、K均值聚类、线性回归、隐Markov模型等;第V部分零散的数学知识,汇总了一些有用的数学事实。
目录
前言
致谢
作者简介
符号和约定
第一部分 数据集的描述
第1章 查看数据的第一个工具 2
1.1 数据集 2
1.2 正在发生什么?绘制数据的图形 3
1.2.1 条形图 5
1.2.2 直方图 5
1.2.3 如何制作直方图 6
1.2.4 条件直方图 7
1.3 汇总一维数据 8
1.3.1 均值 8
1.3.2 标准差 9
1.3.3 在线计算均值和标准差 12
1.3.4 方差 13
1.3.5 中位数 13
1.3.6 四分位距 15
1.3.7 合理使用汇总数据 16
1.4 图形和总结 16
1.4.1 直方图的一些性质 17
1.4.2 标准坐标和正态数据 19
1.4.3 箱形图 21
1.5 谁的更大?澳大利亚比萨调查 22
问题26
编程练习 26
第2章 关注关系 28
2.1 二维数据绘图 28
2.1.1 分类数据、计数和图表 28
2.1.2 序列 32
2.1.3 空间数据散点图 33
2.1.4 用散点图揭示关系 33
2.2 相关37
2.2.1 相关系数 40
2.2.2 用相关性预测43
2.2.3 相关性带来的困惑 46
2.3 野生马群中的不育公马 47
问题49
编程练习 51
第二部分 概率
第3章 概率论基础 56
3.1 实验、结果和概率 56
3.2 事件57
3.2.1 通过计数结果来计算事件概率 58
3.2.2 事件概率 60
3.2.3 通过对集合的推理来计算概率 62
3.3 独立性 64
3.4 条件概率 68
3.4.1 计算条件概率69
3.4.2 检测罕见事件是困难的 71
3.4.3 条件概率和各种独立形式73
3.4.4 警示例子:检察官的谬论74
3.4.5 警示例子:Monty Hall 问题 75
3.5 更多实例 77
3.5.1 结果和概率 77
3.5.2 事件 78
3.5.3 独立性 78
3.5.4 条件概率 79
问题81
第4章 随机变量与期望 86
4.1 随机变量 86
4.1.1 随机变量的联合概率与条件概率87
4.1.2 只是一个小的连续概率 90
4.2 期望和期望值 92
4.2.1 期望值 92
4.2.2 均值、方差和协方差 94
4.2.3 期望和统计 96
4.3 弱大数定律 97
4.3.1 独立同分布样本 97
4.3.2 两个不等式 98
4.3.3 不等式的证明98
4.3.4 弱大数定律的定义 100
4.4 弱大数定律应用101
4.4.1 你应该接受下注吗 101
4.4.2 赔率、期望与博彩:文化转向 102
4.4.3 提前结束比赛103
4.4.4 用决策树和期望做决策 104
4.4.5 效用 105
问题107
编程练习 110
第5章 有用的概率分布 112
5.1 离散分布 112
5.1.1 均匀分布 112
5.1.2 伯努利随机变量 112
5.1.3 几何分布 113
5.1.4 二项分布 113
5.1.5 多项分布 115
5.1.6 泊松分布 115
5.2 连续分布 117
5.2.1 均匀分布 117
5.2.2 贝塔分布 117
5.2.3 伽马分布 118
5.2.4 指数分布 119
5.3 正态分布 119
5.3.1 标准正态分布120
5.3.2 正态分布 120
5.3.3 正态分布的特征 121
5.4 逼近参数为$N$的二项式 122
5.4.1 当$N$取值很大时 124
5.4.2 正态化 125
5.4.3 二项分布的正态逼近 127
问题127
编程练习 132
第三部分 推断
第6章 样本和总体 136
6.1 样本均值 136
6.1.1 样本均值是对总体均值的估计 136
6.1.2 样本均值的方差 137
6.1.3 罐子模型的应用 140
6.1.4 分布就像总体140
6.2 置信区间 141
6.2.1 构造置信区间141
6.2.2 估计样本均值的方差 142
6.2.3 样本均值的概率分布 144
6.2.4 总体均值的置信区间 145
6.2.5 模拟的标准误差估计 147
问题149
编程练习 151
第7章 显著性检验 153
7.1 显著性 154
7.1.1 评估显著性 154
7.1.2 p值 156
7.2 比较两个总体的均值 159
7.2.1 假定总体的标准差已知 159
7.2.2 假定总体有相同但未知的标准差 161
7.2.3 假定总体的标准差未知且不同 161
7.3 其他有用的显著性检验 163
7.3.1 F检验和标准差 163
7.3.2 模型拟合的x2检验 164
7.4 p 值操控和其他危险行为168
问题169
第8章 实验 172
8.1 简单实验:一种处理方法的影响 172
8.1.1 随机平衡实验173
8.1.2 分解预测中的误差 174
8.1.3 估计噪声的方差 174
8.1.4 方差分析表 176
8.1.5 非平衡实验 177
8.1.6 显著性差异 178
8.2 双因素实验 180
8.2.1 误差分解 182
8.2.2 交互效应 184
8.2.3 单个因素的影响 184
8.2.4 建立方差分析表 185
问题188
第9章 基于数据推断概率模型 191
9.1 用极大似然估计模型参数 192
9.1.1 极大似然原理192
9.1.2 二项分布、几何分布和多项分布 193
9.1.3 泊松分布和正态分布195
9.1.4 模型参数的置信区间198
9.1.5 关于极大似然的注意事项 200
9.2 结合贝叶斯推断的先验概率 200
9.2.1 共轭 202
9.2.2 MAP推断 204
9.2.3 贝叶斯推断的注意事项 205
9.3 正态分布的贝叶斯推断205
9.3.1 示例:测量钻孔深度205
9.3.2 通过正态先验分布和正态似然函数得出正态后验分布206
9.3.3 过滤 208
问题 210
编程练习 213
第四部分 工具
第10章 高维状态下的相关性分析218
10.1 数据汇总与简单的统计图 218
10.1.1 均值 219
10.1.2 茎叶图和散点图矩阵 219
10.1.3 协方差 222
10.1.4 协方差矩阵 223
10.2 通过均值和协方差来理解高维数据 224
10.2.1 仿射变换下的均值和协方差 225
10.2.2 特征向量与对角化 226
10.2.3 旋转团来对角化协方差 227
10.2.4 近似团 228
10.2.5 示例:身高--体重数据团转换 229
10.3 主成分分析 231
10.3.1 低维度的表示方法 232
10.3.2 降维引起的误差 233
10.3.3 示例:用主成分表示颜色234
10.3.4 示例:用主成分表示面孔236
10.4 多维放缩 236
10.4.1 使用高维距离选择低维点237
10.4.2 分解点积矩阵239
10.4.3 示例:使用多维放缩的地图 240
10.5 示例:了解身高与体重 241
问题 245
编程练习 245
第11章 分类学习 248
11.1 分类248
11.1.1 错误率和其他性能总结 249
11.1.2 更详细的评估249
11.1.3 过度拟合和交叉验证 250
11.2 用最近邻分类 251
11.3 用朴素贝叶斯分类 253
11.4 支持向量机 256
11.4.1 铰链损失 257
11.4.2 正则化 258
11.4.3 用随机梯度下降法查找分类器 259
11.4.4 搜索λ 261
11.4.5 示例:用随机梯度下降法训练支持向量机 262
11.4.6 支持向量机的多类分类 265
11.5 用随机森林分类265
11.5.1 构建决策树:通用算法 267
11.5.2 构建决策树:选择拆分 267
11.5.3 森林 269
编程练习 271
MNIST练习 274
第12章 聚类:高维数据模型 277
12.1 维度灾难 277
12.1.1 幂次维数 277
12.1.2 灾难:数据未在预想范围出现 278
12.2 聚类数据 279
12.2.1 聚合聚类与分裂聚类 279
12.2.2 聚类与距离 282
12.3 k均值算法及其变体 282
12.3.1 确定k值 285
12.3.2 软分配 285
12.3.3 高效聚类和分层k均值 287
12.3.4 k中心点算法 288
12.3.5 示例:葡萄牙杂货铺 288
12.3.6 关于k均值的评价 291
12.4 用向量量化描述重复 291
12.4.1 向量量化 292
12.4.2 示例:基于加速计数据的行为 294
12.5 多元正态分布 297
12.5.1 仿射变换和高斯分布 298
12.5.2 绘制二维高斯分布:协方差椭圆 298
编程练习 299
CIFAR-10和向量量化练习 300
第13章 回归 301
13.1 回归预测 301
13.2 回归趋势 303
13.3 线性回归与最小二乘 304
13.3.1 线性回归 304
13.3.2 β的选择305
13.3.3 最小二乘问题求解 305
13.3.4 残差 306
13.3.5 R2 306
13.4 优化线性回归模型 308
13.4.1 变量转换 309
13.4.2 问题数据点有显著影响 311
13.4.3 单解释变量函数 313
13.4.4 线性回归的正则化 314
13.5 利用近邻进行回归分析 317
附录:数据319
问题 319
编程练习 324
第14章 马尔可夫链与隐马尔可夫链 326
14.1 马尔可夫链 326
14.1.1 转移概率矩阵328
14.1.2 平稳分布 330
14.1.3 示例:马尔可夫链文本模型 331
14.2 马尔可夫链的性质估计 334
14.2.1 模拟 334
14.2.2 模拟结果为随机变量 335
14.2.3 模拟马尔可夫链 337
14.3 示例:通过模拟马尔可夫链对Web进行排名 338
14.4 隐马尔可夫模型与动态规划340
14.4.1 隐马尔可夫模型 340
14.4.2 用网格进行图形推理 341
14.4.3 HMM的动态规划 344
14.4.4 示例:简单通信报错 344
问题 347
编程练习 347
第五部分 其他数学知识
第15章 资源和附加资料 350
15.1 有关矩阵的内容350
15.1.1 奇异值分解 351
15.1.2 逼近一个对称矩阵 351
15.2 特殊函数 353
15.3 在决策树中拆分节点 354
15.3.1 用熵计算信息355
15.3.2 利用信息增益来选择拆分356
索引 358


推荐

车牌查询
桂ICP备20004708号-3