| 作者 |
| 常国珍 赵仁乾 张秋剑 |
| 丛书名 |
| 出版社 |
| 机械工业出版社 |
| ISBN |
| 9787111603092 |
| 简要 |
| 从技术、业务、商业实战3个维度为数据科学家的养成提供系统化学习路径 |
| 简介 |
| 内容简介书籍计算机书籍 本书共19章,第1章介绍数据科学中涉及的基本领域;第2~3章介绍与数据工作紧密相关的Python语言基础;第4章讲解描述性统计分析在宏观业务领域的分析;第5章讲解数据规整、清洗的重要技能;第6章介绍数据科学领域实用的四大统计检验;第7章讲解当被解释变量为连续变量时,如何使用线性回归作预测;第8章讲解使用逻辑回归作评分卡模型;第9章讲解另外一个可解释模型——决策树。第10~12章分别讲解了BP神经网络、朴素贝叶斯、近邻域、支持向量机的原理和在决策类模型中的运用;第13~14章作为一个整体讲解商业分析场景下的信息压缩;第15章以产品推荐作为案例,讲解发现事件与事件伴生关系的关联分析和序列分析算法;第16章使用欺诈识别案例讲解当被解释变量分布极 端不平衡时的处理方法;第17章继续使用欺诈识别案例讲解集成学习算法;第18章讲解了使用效应分解和ARIMA方法实现宏观业务指标预测;第19章用案例展现了分类和聚类模型的CRISP-DM和SEMMA流程。 |
| 目录 |
| 前言 第1章数据科学家的武器库 11数据科学的基本概念 12数理统计技术 121描述性统计分析 122统计推断与统计建模 13数据挖掘的技术与方法 14描述性数据挖掘算法示例 141聚类分析——客户细分 142关联规则分析 15预测性数据挖掘算法示例 151决策树 152KNN算法 153Logistic回归 154神经网络 155支持向量机 156集成学习 157预测类模型讲解 158预测类模型评估概述 第2章Python概述 21Python概述 211Python简介 212Python与数据科学 213Python2与Python3 22Anaconda Python的安装、使用 221下载与安装 222使用Jupyter Notebook 223使用Spyder 224使用conda或pip管理 第三方库 第3章数据科学的Python编程基础 31Python的基本数据类型 311字符串(str) 312浮点数和整数(float、int) 313布尔值(Bool:True/False) 314其他 32Python的基本数据结构 321列表(list) 322元组(tuple) 323集合(set) 324字典(dict) 33Python的程序控制 331三种基本的编程结构简介 332顺承结构 333分支结构 334循环结构 34Python的函数与模块 341Python的函数 342Python的模块 35Pandas读取结构化数据 351读取数据 352写出数据 第4章描述性统计分析与绘图 41描述性统计进行数据探索 411变量度量类型与分布类型 412分类变量的统计量 413连续变量的分布与集中趋势 414连续变量的离散程度 415数据分布的对称与高矮 42制作报表与统计制图 43制图的步骤 第5章数据整合和数据清洗 51数据整合 511行列操作 512条件查询 513横向连接 514纵向合并 515排序 516分组汇总 517拆分、堆叠列 518赋值与条件赋值 52数据清洗 521重复值处理 522缺失值处理 523噪声值处理 53RFM方法在客户行为分析上的运用 531行为特征提取的RFM方法论 532使用RFM方法计算变量 533数据整理与汇报 第6章数据科学的统计推断基础 61基本的统计学概念 611总体与样本 612统计量 613点估计、区间估计和中心极限定理 62假设检验与单样本t检验 621假设检验 622单样本t检验 63双样本t检验 64方差分析(分类变量和连续变量关系检验) 641单因素方差分析 642多因素方差分析 65相关分析(两连续变量关系检验) 651相关系数 652散点矩阵图 66卡方检验(二分类变量关系检验) 661列联表 662卡方检验 第7章客户价值预测:线性回归模型与诊断 71线性回归 711简单线性回归 712多元线性回归 713多元线性回归的变量筛选 72线性回归诊断 721残差分析 722强影响点分析 723多重共线性分析 724小结线性回归诊断 73正则化方法 731岭回归 732LASSO回归 第8章Logistic回归构建初始信用评级 81Logistic回归的相关关系分析 82Logistic回归模型及实现 821Logistic回归与发生比 822Logistic回归的基本原理 823在Python中实现Logistic回归 83Logistic回归的极大似然估计 831极大似然估计的概念 832Logistics回归的极大似然估计 84模型评估 841模型评估方法 842ROC曲线的概念 843在Python中实现ROC曲线 第9章使用决策树进行初始信用评级 91决策树概述 92决策树算法 921ID3建树算法原理 922C45建树算法原理 923CART建树算法原理 924决策树的剪枝 93在Python中实现决策树 931建模 932模型评估 933决策树的可视化 934参数搜索调优 第10章神经网络 101神经元模型 102单层感知器 103BP神经网络 104多层感知器的scikitlearn代码实现 第11章分类器入门:最近邻域与朴素贝叶斯 111KNN算法 1111KNN算法原理 1112在Python中实现KNN算法 112朴素贝叶斯分类 1121贝叶斯公式 1122朴素贝叶斯分类原理 1123朴素贝叶斯的参数估计 1124在Python中实现朴素贝叶斯 第12章高级分类器:支持向量机 121线性可分与线性不可分 122线性可分支持向量机 1221函数间隔和几何间隔 1222学习策略 1223对偶方法求解 1224线性可分支持向量机例题 123线性支持向量机与软间隔最大化 124非线性支持向量机与核函数 1241核函数 1242非线性支持向量机的学习 1243示例与Python实现 125使用支持向量机的案例 第13章连续变量的特征选择与转换 131方法概述 132主成分分析 1321主成分分析简介 1322主成分分析原理 1323主成分分析的运用 1324在Python中实现主成分分析 133基于主成分的冗余变量筛选 134因子分析 1341因子分析模型 1342因子分析算法 1343在Python中实现因子分析 第14章客户分群与聚类 141聚类算法概述 142聚类算法基本概念 1421变量标准化与分布形态转换 1422变量的维度分析 143聚类模型的评估 144层次聚类 1441层次聚类原理 1442层次聚类在Python中的实现 145基于划分的聚类 1451kmeans聚类原理 1452kmeans聚类的应用场景 1453在Python中实现kmeans聚类 146基于密度的聚类 1461详谈基于密度聚类 1462在Python中实现密度聚类 147案例:通信客户业务使用偏好聚类 1471保持原始变量分布形态进行聚类 1472对变量进行分布形态转换后聚类 第15章关联规则 151关联规则 1511关联规则的一些概念 1512Apriori算法原理 1513在Python中实现关联规则 152序列模式 1521序列模式简介与概念 1522序列模式算法 1523在Python中实现序列模式 第16章排序模型的不平衡分类处理 161不平衡分类概述 162欠采样法 1621随机欠采样法 1622Tomek Link法 163过采样法 1631随机过采样法 1632SMOTE法 164综合采样法 165在Python中实现不平衡分类处理 第17章集成学习 171集成学习概述 172Bagging 1721Bagging算法实现 1722随机森林 173Boosting 174偏差(Bias)、方差(Variance)与集成方法 1741偏差与方差 1742Bagging与Boosting的直观理解 第18章时间序列建模 181认识时间序列 182效应分解法时间序列分析 183平稳时间序列分析ARMA模型 1831平稳时间序列 1832ARMA模型 1833在Python中进行AR建模 184非平稳时间序列分析ARIMA模型 1841差分与ARIMA模型 1842在Python中进行ARIMA建模 185ARIMA方法建模总结 第19章商业数据挖掘案例 191个人贷款违约预测模型 1911数据介绍 1912业务分析 1913数据理解 1914数据整理 1915建立分析模型 1916模型运用 1917流程回顾 192慈善机构精准营销案例 1921构造营销响应模型 1922构造客户价值预测模型 1923制订营销策略 1924案例过程回顾与不足 193旅游企业客户洞察案例 1931案例说明 1932数据预处理 1933使用kmeans聚类建模 1934对各个簇的特征进行描述 194个人3C产品精准营销案例 1941案例说明 1942数据预处理 1943建模 1944模型评估 1945下一步建议 附录A 数据说明 参考文献 |