作者 |
[美]大卫·福赛斯(David Forsyth) 等 |
丛书名 |
统计学精品译丛 |
出版社 |
机械工业出版社 |
ISBN |
9782112201815 |
简要 |
简介 |
内容简介书籍数学书籍 ---------------------------8085077 - 概率与统计:计算机科学视角--------------------------- 本书针对计算机科学专业的本科生,旨在揭示概率和统计的思想。全书共分为五部分,第I部分数据集的描述,涵盖各种描述性统计量(均值、标准差、方差)、一维数据集的可视化方法,以及散点图、相关性和二维数据集的描述;第II部分概率,内容涵盖离散型概率、条件概率、连续型概率、Markov不等式、Chebyshev不等式及弱大数定律等;第III部分推断,涵盖样本、总体、置信区间、统计显著性、试验设计、方差分析和简单贝叶斯推断等;第IV部分工具,涵盖主成分分析、zui近邻分类、朴素贝叶斯分类、K均值聚类、线性回归、隐Markov模型等;第V部分零散的数学知识,汇总了一些有用的数学事实。 ---------------------------8077116 - 机器学习:应用视角--------------------------- 本教材是一个机器学习工具箱,适用于计算机科学专业本科四年级或研究生一年级的学生。本书为那些想要使用机器学习过程来完成任务的人提供了许多主题,强调使用现有的工具和包,而不是自己重新编写代码。本书适用于从头至尾的讲授或阅读,不同的讲师或读者有不同的需求。 |
目录 |
[套装书具体书目] 8077116 - 机器学习:应用视角 - 9787111668299 - 机械工业出版社 - 定价 129 8085077 - 概率与统计:计算机科学视角 - 9787111695844 - 机械工业出版社 - 定价 139 ---------------------------8085077 - 概率与统计:计算机科学视角--------------------------- 前言 致谢 作者简介 符号和约定 第一部分 数据集的描述 第1章 查看数据的第一个工具 2 1.1 数据集 2 1.2 正在发生什么?绘制数据的图形 3 1.2.1 条形图 5 1.2.2 直方图 5 1.2.3 如何制作直方图 6 1.2.4 条件直方图 7 1.3 汇总一维数据 8 1.3.1 均值 8 1.3.2 标准差 9 1.3.3 在线计算均值和标准差 12 1.3.4 方差 13 1.3.5 中位数 13 1.3.6 四分位距 15 1.3.7 合理使用汇总数据 16 1.4 图形和总结 16 1.4.1 直方图的一些性质 17 1.4.2 标准坐标和正态数据 19 1.4.3 箱形图 21 1.5 谁的更大?澳大利亚比萨调查 22 问题26 编程练习 26 第2章 关注关系 28 2.1 二维数据绘图 28 2.1.1 分类数据、计数和图表 28 2.1.2 序列 32 2.1.3 空间数据散点图 33 2.1.4 用散点图揭示关系 33 2.2 相关37 2.2.1 相关系数 40 2.2.2 用相关性预测43 2.2.3 相关性带来的困惑 46 2.3 野生马群中的不育公马 47 问题49 编程练习 51 第二部分 概率 第3章 概率论基础 56 3.1 实验、结果和概率 56 3.2 事件57 3.2.1 通过计数结果来计算事件概率 58 3.2.2 事件概率 60 3.2.3 通过对集合的推理来计算概率 62 3.3 独立性 64 3.4 条件概率 68 3.4.1 计算条件概率69 3.4.2 检测罕见事件是困难的 71 3.4.3 条件概率和各种独立形式73 3.4.4 警示例子:检察官的谬论74 3.4.5 警示例子:Monty Hall 问题 75 3.5 更多实例 77 3.5.1 结果和概率 77 3.5.2 事件 78 3.5.3 独立性 78 3.5.4 条件概率 79 问题81 第4章 随机变量与期望 86 4.1 随机变量 86 4.1.1 随机变量的联合概率与条件概率87 4.1.2 只是一个小的连续概率 90 4.2 期望和期望值 92 4.2.1 期望值 92 4.2.2 均值、方差和协方差 94 4.2.3 期望和统计 96 4.3 弱大数定律 97 4.3.1 独立同分布样本 97 4.3.2 两个不等式 98 4.3.3 不等式的证明98 4.3.4 弱大数定律的定义 100 4.4 弱大数定律应用101 4.4.1 你应该接受下注吗 101 4.4.2 赔率、期望与博彩:文化转向 102 4.4.3 提前结束比赛103 4.4.4 用决策树和期望做决策 104 4.4.5 效用 105 问题107 编程练习 110 第5章 有用的概率分布 112 5.1 离散分布 112 5.1.1 均匀分布 112 5.1.2 伯努利随机变量 112 5.1.3 几何分布 113 5.1.4 二项分布 113 5.1.5 多项分布 115 5.1.6 泊松分布 115 5.2 连续分布 117 5.2.1 均匀分布 117 5.2.2 贝塔分布 117 5.2.3 伽马分布 118 5.2.4 指数分布 119 5.3 正态分布 119 5.3.1 标准正态分布120 5.3.2 正态分布 120 5.3.3 正态分布的特征 121 5.4 逼近参数为$N$的二项式 122 5.4.1 当$N$取值很大时 124 5.4.2 正态化 125 5.4.3 二项分布的正态逼近 127 问题127 编程练习 132 第三部分 推断 第6章 样本和总体 136 6.1 样本均值 136 6.1.1 样本均值是对总体均值的估计 136 6.1.2 样本均值的方差 137 6.1.3 罐子模型的应用 140 6.1.4 分布就像总体140 6.2 置信区间 141 6.2.1 构造置信区间141 6.2.2 估计样本均值的方差 142 6.2.3 样本均值的概率分布 144 6.2.4 总体均值的置信区间 145 6.2.5 模拟的标准误差估计 147 问题149 编程练习 151 第7章 显著性检验 153 7.1 显著性 154 7.1.1 评估显著性 154 7.1.2 p值 156 7.2 比较两个总体的均值 159 7.2.1 假定总体的标准差已知 159 7.2.2 假定总体有相同但未知的标准差 161 7.2.3 假定总体的标准差未知且不同 161 7.3 其他有用的显著性检验 163 7.3.1 F检验和标准差 163 7.3.2 模型拟合的x2检验 164 7.4 p 值操控和其他危险行为168 问题169 第8章 实验 172 8.1 简单实验:一种处理方法的影响 172 8.1.1 随机平衡实验173 8.1.2 分解预测中的误差 174 8.1.3 估计噪声的方差 174 8.1.4 方差分析表 176 8.1.5 非平衡实验 177 8.1.6 显著性差异 178 8.2 双因素实验 180 8.2.1 误差分解 182 8.2.2 交互效应 184 8.2.3 单个因素的影响 184 8.2.4 建立方差分析表 185 问题188 第9章 基于数据推断概率模型 191 9.1 用极大似然估计模型参数 192 9.1.1 极大似然原理192 9.1.2 二项分布、几何分布和多项分布 193 9.1.3 泊松分布和正态分布195 9.1.4 模型参数的置信区间198 9.1.5 关于极大似然的注意事项 200 9.2 结合贝叶斯推断的先验概率 200 9.2.1 共轭 202 9.2.2 MAP推断 204 9.2.3 贝叶斯推断的注意事项 205 9.3 正态分布的贝叶斯推断205 9.3.1 示例:测量钻孔深度205 9.3.2 通过正态先验分布和正态似然函数得出正态后验分布206 9.3.3 过滤 208 问题 210 编程练习 213 第四部分 工具 第10章 高维状态下的相关性分析218 10.1 数据汇总与简单的统计图 218 10.1.1 均值 219 10.1.2 茎叶图和散点图矩阵 219 10.1.3 协方差 222 10.1.4 协方差矩阵 223 10.2 通过均值和协方差来理解高维数据 224 10.2.1 仿射变换下的均值和协方差 225 10.2.2 特征向量与对角化 226 10.2.3 旋转团来对角化协方差 227 10.2.4 近似团 228 10.2.5 示例:身高--体重数据团转换 229 10.3 主成分分析 231 10.3.1 低维度的表示方法 232 10.3.2 降维引起的误差 233 10.3.3 示例:用主成分表示颜色234 10.3.4 示例:用主成分表示面孔236 10.4 多维放缩 236 10.4.1 使用高维距离选择低维点237 10.4.2 分解点积矩阵239 10.4.3 示例:使用多维放缩的地图 240 10.5 示例:了解身高与体重 241 问题 245 编程练习 245 第11章 分类学习 248 11.1 分类248 11.1.1 错误率和其他性能总结 249 11.1.2 更详细的评估249 11.1.3 过度拟合和交叉验证 250 11.2 用最近邻分类 251 11.3 用朴素贝叶斯分类 253 11.4 支持向量机 256 11.4.1 铰链损失 257 11.4.2 正则化 258 11.4.3 用随机梯度下降法查找分类器 259 11.4.4 搜索λ 261 11.4.5 示例:用随机梯度下降法训练支持向量机 262 11.4.6 支持向量机的多类分类 265 11.5 用随机森林分类265 11.5.1 构建决策树:通用算法 267 11.5.2 构建决策树:选择拆分 267 11.5.3 森林 269 编程练习 271 MNIST练习 274 第12章 聚类:高维数据模型 277 12.1 维度灾难 277 12.1.1 幂次维数 277 12.1.2 灾难:数据未在预想范围出现 278 12.2 聚类数据 279 12.2.1 聚合聚类与分裂聚类 279 12.2.2 聚类与距离 282 12.3 k均值算法及其变体 282 12.3.1 确定k值 285 12.3.2 软分配 285 12.3.3 高效聚类和分层k均值 287 12.3.4 k中心点算法 288 12.3.5 示例:葡萄牙杂货铺 288 12.3.6 关于k均值的评价 291 12.4 用向量量化描述重复 291 12.4.1 向量量化 292 12.4.2 示例:基于加速计数据的行为 294 12.5 多元正态分布 297 12.5.1 仿射变换和高斯分布 298 12.5.2 绘制二维高斯分布:协方差椭圆 298 编程练习 299 CIFAR-10和向量量化练习 300 第13章 回归 301 13.1 回归预测 301 13.2 回归趋势 303 13.3 线性回归与最小二乘 304 13.3.1 线性回归 304 13.3.2 β的选择305 13.3.3 最小二乘问题求解 305 13.3.4 残差 306 13.3.5 R2 306 13.4 优化线性回归模型 308 13.4.1 变量转换 309 13.4.2 问题数据点有显著影响 311 13.4.3 单解释变量函数 313 13.4.4 线性回归的正则化 314 13.5 利用近邻进行回归分析 317 附录:数据319 问题 319 编程练习 324 第14章 马尔可夫链与隐马尔可夫链 326 14.1 马尔可夫链 326 14.1.1 转移概率矩阵328 14.1.2 平稳分布 330 14.1.3 示例:马尔可夫链文本模型 331 14.2 马尔可夫链的性质估计 334 14.2.1 模拟 334 14.2.2 模拟结果为随机变量 335 14.2.3 模拟马尔可夫链 337 14.3 示例:通过模拟马尔可夫链对Web进行排名 338 14.4 隐马尔可夫模型与动态规划340 14.4.1 隐马尔可夫模型 340 14.4.2 用网格进行图形推理 341 14.4.3 HMM的动态规划 344 14.4.4 示例:简单通信报错 344 问题 347 编程练习 347 第五部分 其他数学知识 第15章 资源和附加资料 350 15.1 有关矩阵的内容350 15.1.1 奇异值分解 351 15.1.2 逼近一个对称矩阵 351 15.2 特殊函数 353 15.3 在决策树中拆分节点 354 15.3.1 用熵计算信息355 15.3.2 利用信息增益来选择拆分356 索引 358 ---------------------------8077116 - 机器学习:应用视角--------------------------- 译者序 前言 致谢 关于作者 第一部分 分类 第1章 学会分类2 1.1 分类的主要思想2 1.1.1 误差率及其他性能指标2 1.1.2 更详细的评估3 1.1.3 过拟合与交叉验证4 1.2 最近邻分类5 1.3 朴素贝叶斯7 1.3.1 利用交叉验证进行模型选择9 1.3.2 数据缺失11 编程练习11 第2章 支持向量机和随机森林14 2.1 支持向量机14 2.1.1 铰链损失15 2.1.2 正则化16 2.1.3 通过随机梯度下降来寻找分类器17 2.1.4 λ的搜索19 2.1.5 总结:用随机梯度下降训练20 2.1.6 例子:利用支持向量机分析成人收入21 2.1.7 利用支持向量机进行多类分类23 2.2 利用随机森林进行分类23 2.2.1 构造决策树25 2.2.2 用信息增益来选择划分27 2.2.3 森林29 2.2.4 构造并评估决策森林29 2.2.5 利用决策森林进行数据分类30 编程练习31 MNIST练习33 第3章 学习理论初步35 3.1 用留出损失预测测试损失35 3.1.1 样本均值和期望36 3.1.2 利用切比雪夫不等式37 3.1.3 一个泛化界37 3.2 有限分类器族的测试误差与训练误差38 3.2.1 霍夫丁不等式39 3.2.2 在有限预测器族上训练39 3.2.3 所需样例数量40 3.3 无限预测器集合41 3.3.1 预测器和二值函数41 3.3.2 对称化43 3.3.3 限制泛化误差44 第二部分 高维数据 第4章 高维数据48 4.1 概述及简单绘图48 4.1.1 均值48 4.1.2 杆图和散点图矩阵49 4.1.3 协方差51 4.1.4 协方差矩阵52 4.2 维数灾难53 4.2.1 灾难:数据不是你想象的那样53 4.2.2 维数的小困扰55 4.3 用均值和协方差理解高维数据55 4.3.1 仿射变换下的均值和协方差56 4.3.2 特征向量及矩阵对角化56 4.3.3 通过旋转数据堆来对角化协方差矩阵57 4.4 多元正态分布58 4.4.1 仿射变换与高斯模型59 4.4.2 绘制二维高斯模型:协方差椭圆59 4.4.3 描述统计与期望60 4.4.4 维数灾难的更多内容61 习题61 第5章 主成分分析64 5.1 在主成分上表示数据64 5.1.1 近似数据团块64 5.1.2 例子:变换身高体重堆65 5.1.3 在主成分上表示数据67 5.1.4 低维表示中的误差68 5.1.5 用NIPALS算法提取若干主成分69 5.1.6 主成分和缺失值70 5.1.7 PCA作为平滑方法71 5.2 例子:用主成分表示颜色72 5.3 例子:用主成分表示人脸75 习题77 编程练习78 第6章 低秩近似80 6.1 奇异值分解80 6.1.1 SVD和PCA81 6.1.2 SVD和低秩近似82 6.1.3 用SVD进行平滑82 6.2 多维缩放83 6.2.1 通过高维的距离选择低维的点83 6.2.2 使用低秩近似分解因子84 6.2.3 例子:利用多维缩放进行映射85 6.3 例子:文本模型和潜在语义分析87 6.3.1 余弦距离88 6.3.2 对单词计数进行平滑88 6.3.3 例子:对NIPS文档进行映射89 6.3.4 获得词的含义90 6.3.5 例子:对NIPS数据集的词进行映射92 6.3.6 TFIDF93 习题94 编程练习95 第7章 典型相关分析97 7.1 典型相关分析算法97 7.2 例子:在词和图片上进行CCA99 7.3 例子:在反射率和遮光上进行CCA102 编程练习105 第三部分 聚类 第8章 聚类108 8.1 聚合式聚类和拆分式聚类108 8.2 k均值算法及其变体111 8.2.1 如何选择k的值114 8.2.2 软分配115 8.2.3 高效聚类和层级式k均值117 8.2.4 k中心点算法117 8.2.5 例子:葡萄牙的杂货117 8.2.6 关于k均值算法的一些见解119 8.3 用向量量化描述重复性120 8.3.1 向量量化121 8.3.2 例子:基于加速度计数据的行为123 编程练习126 第9章 使用概率模型进行聚类130 9.1 混合模型与聚类130 9.1.1 数据团块的有限混合模型130 9.1.2 主题和主题模型132 9.2 EM算法133 9.2.1 例子——高斯混合:E步134 9.2.2 例子——高斯混合:M步136 9.2.3 例子——主题模型:E步136 9.2.4 例子——主题模型:M步137 9.2.5 EM算法的实践137 习题140 编程练习140 第四部分 回归 第10章 回归144 10.1 概述144 10.2 线性回归和最小二乘法146 10.2.1 线性回归146 10.2.2 选择β147 10.2.3 残差148 10.2.4 R2149 10.2.5 变量变换150 10.2.6 可以相信回归吗152 10.3 可视化回归以发现问题153 10.3.1 问题数据点具有显著影响153 10.3.2 帽子矩阵和杠杆155 10.3.3 库克距离156 10.3.4 标准化残差156 10.4 很多解释变量158 10.4.1 一个解释变量的函数158 10.4.2 正则化线性回归159 10.4.3 例子:体重与身体测量值162 附录 数据165 习题165 编程练习168 第11章 回归:选择和管理模型170 11.1 模型选择:哪种模型最好170 11.1.1 偏差与方差170 11.1.2 用惩罚机制选择模型:AIC和BIC172 11.1.3 使用交叉验证选择模型173 11.1.4 基于分阶段回归的贪心搜索174 11.1.5 哪些变量是重要的174 11.2 鲁棒回归175 11.2.1 M估计和迭代加权最小二乘176 11.2.2 M估计的尺度178 11.3 广义线性模型179 11.3.1 逻辑回归179 11.3.2 多类逻辑回归180 11.3.3 回归计数数据181 11.3.4 离差181 11.4 L1正则化和稀疏模型182 11.4.1 通过L1正则化删除变量182 11.4.2 宽数据集185 11.4.3 在其他模型上使用稀疏惩罚186 编程练习187 第12章 Boosting190 12.1 贪心法和分阶段回归法190 12.1.1 例子:贪心分阶段线性回归190 12.1.2 回归树192 12.1.3 基于树的贪心分阶段回归193 12.2 Boosting分类器196 12.2.1 损失196 12.2.2 分阶段降低损失的一般方法197 12.2.3 例子:Boosting决策树桩198 12.2.4 决策树桩的梯度提升199 12.2.5 其他预测器的梯度提升200 12.2.6 例子:医生会开阿片类药物吗201 12.2.7 用lasso修剪提升的预测器202 12.2.8 梯度提升软件204 习题206 编程练习207 第五部分 图模型 第13章 隐马尔可夫模型210 13.1 马尔可夫链210 13.1.1 转移概率矩阵212 13.1.2 稳态分布214 13.1.3 例子:文本的马尔可夫链模型216 13.2 隐马尔可夫模型与动态规划218 13.2.1 隐马尔可夫模型218 13.2.2 用网格图图解推断过程219 13.2.3 基于动态规划的推断过程222 13.2.4 例子:校正简单文本错误222 13.3 隐马尔可夫模型的学习过程224 13.3.1 当隐状态有明确语义信息时225 13.3.2 基于EM的隐马尔可夫模型学习过程225 习题228 编程练习229 第14章 学习序列模型的判别式方法232 14.1 图模型232 14.1.1 推断与图232 14.1.2 图模型234 14.1.3 在图模型中的学习235 14.2 用于序列的条件随机场模型235 14.2.1 MEMM和标签偏置236 14.2.2 条件随机场模型237 14.2.3 学习CRF时需要留心238 14.3 CRF的判别学习239 14.3.1 模型的表示239 14.3.2 例子:数字序列建模240 14.3.3 建立学习问题241 14.3.4 梯度计算241 习题243 编程练习243 第15章 平均场推断245 15.1 有用却难解的模型245 15.1.1 用玻尔兹曼机为二值图像去噪246 15.1.2 离散马尔可夫随机场246 15.1.3 基于离散马尔可夫随机场的去噪和分割247 15.1.4 离散马尔可夫场的MAP推断可能很难249 15.2 变分推断250 15.2.1 KL散度250 15.2.2 变分自由能251 15.3 例子:玻尔兹曼机的变分推断251 第六部分 深度网络 第16章 简单神经网络256 16.1 单元和分类256 16.1.1 用单元来构建一个分类器:代价函数256 16.1.2 用单元来构建一个分类器:决策 258 16.1.3 用单元来构建一个分类器:训练258 16.2 例子:信用卡账户分类260 16.3 层和网络264 16.3.1 堆叠层264 16.3.2 雅可比矩阵和梯度265 16.3.3 构建多层266 16.3.4 梯度和反向传播267 16.4 训练多层网络269 16.4.1 软件环境270 16.4.2 Dropout和冗余单元271 16.4.3 例子:再论信用卡账户271 16.4.4 高级技巧:梯度缩放273 习题276 编程练习277 第17章 简单图像分类器278 17.1 图像分类278 17.1.1 基于卷积的模式检测279 17.1.2 卷积层的堆叠283 17.2 两个实用的图像分类器284 17.2.1 例子:MNIST数据集分类285 17.2.2 例子:CIFAR10数据集分类288 17.2.3 异类:对抗样本292 编程练习293 第18章 图像分类与物体检测294 18.1 图像分类295 18.1.1 物体图像分类数据集295 18.1.2 场景图像分类数据集296 18.1.3 增广和集成297 18.1.4 AlexNet298 18.1.5 VGGNet299 18.1.6 批归一化301 18.1.7 计算图302 18.1.8 Inception网络302 18.1.9 残差网络303 18.2 物体检测305 18.2.1 物体检测如何工作305 18.2.2 选择性搜索306 18.2.3 RCNN、Fast RCNN和Faster RCNN307 18.2.4 YOLO309 18.2.5 评价检测器310 18.3 延伸阅读312 习题313 编程练习313 第19章 大信号的小码表示315 19.1 更好的低维映射315 19.1.1 萨蒙映射316 19.1.2 TSNE317 19.2 产生低维表示的映射319 19.2.1 编码器、解码器和自编码器319 19.2.2 令数据块变得更大320 19.2.3 去噪自编码器322 19.3 从例子中产生图像325 19.3.1 变分自编码器326 19.3.2 对抗损失:愚弄分类器327 19.3.3 利用测试函数来匹配分布328 19.3.4 通过查看距离来匹配分布329 编程练习330 |