Python数据科学:技术详解与商业实践

作者
常国珍 赵仁乾 张秋剑
丛书名
出版社
机械工业出版社
ISBN
9787111603092
简要
从技术、业务、商业实战3个维度为数据科学家的养成提供系统化学习路径
简介
内容简介书籍计算机书籍 本书共19章,第1章介绍数据科学中涉及的基本领域;第2~3章介绍与数据工作紧密相关的Python语言基础;第4章讲解描述性统计分析在宏观业务领域的分析;第5章讲解数据规整、清洗的重要技能;第6章介绍数据科学领域实用的四大统计检验;第7章讲解当被解释变量为连续变量时,如何使用线性回归作预测;第8章讲解使用逻辑回归作评分卡模型;第9章讲解另外一个可解释模型——决策树。第10~12章分别讲解了BP神经网络、朴素贝叶斯、近邻域、支持向量机的原理和在决策类模型中的运用;第13~14章作为一个整体讲解商业分析场景下的信息压缩;第15章以产品推荐作为案例,讲解发现事件与事件伴生关系的关联分析和序列分析算法;第16章使用欺诈识别案例讲解当被解释变量分布极 端不平衡时的处理方法;第17章继续使用欺诈识别案例讲解集成学习算法;第18章讲解了使用效应分解和ARIMA方法实现宏观业务指标预测;第19章用案例展现了分类和聚类模型的CRISP-DM和SEMMA流程。
目录
前言
第1章数据科学家的武器库
11数据科学的基本概念
12数理统计技术
121描述性统计分析
122统计推断与统计建模
13数据挖掘的技术与方法
14描述性数据挖掘算法示例
141聚类分析——客户细分
142关联规则分析
15预测性数据挖掘算法示例
151决策树
152KNN算法
153Logistic回归
154神经网络
155支持向量机
156集成学习
157预测类模型讲解
158预测类模型评估概述
第2章Python概述
21Python概述
211Python简介
212Python与数据科学
213Python2与Python3
22Anaconda Python的安装、使用
221下载与安装
222使用Jupyter Notebook
223使用Spyder
224使用conda或pip管理
第三方库
第3章数据科学的Python编程基础
31Python的基本数据类型
311字符串(str)
312浮点数和整数(float、int)
313布尔值(Bool:True/False)
314其他
32Python的基本数据结构
321列表(list)
322元组(tuple)
323集合(set)
324字典(dict)
33Python的程序控制
331三种基本的编程结构简介
332顺承结构
333分支结构
334循环结构
34Python的函数与模块
341Python的函数
342Python的模块
35Pandas读取结构化数据
351读取数据
352写出数据
第4章描述性统计分析与绘图
41描述性统计进行数据探索
411变量度量类型与分布类型
412分类变量的统计量
413连续变量的分布与集中趋势
414连续变量的离散程度
415数据分布的对称与高矮
42制作报表与统计制图
43制图的步骤
第5章数据整合和数据清洗
51数据整合
511行列操作
512条件查询
513横向连接
514纵向合并
515排序
516分组汇总
517拆分、堆叠列
518赋值与条件赋值
52数据清洗
521重复值处理
522缺失值处理
523噪声值处理
53RFM方法在客户行为分析上的运用
531行为特征提取的RFM方法论
532使用RFM方法计算变量
533数据整理与汇报
第6章数据科学的统计推断基础
61基本的统计学概念
611总体与样本
612统计量
613点估计、区间估计和中心极限定理
62假设检验与单样本t检验
621假设检验
622单样本t检验
63双样本t检验
64方差分析(分类变量和连续变量关系检验)
641单因素方差分析
642多因素方差分析
65相关分析(两连续变量关系检验)
651相关系数
652散点矩阵图
66卡方检验(二分类变量关系检验)
661列联表
662卡方检验
第7章客户价值预测:线性回归模型与诊断
71线性回归
711简单线性回归
712多元线性回归
713多元线性回归的变量筛选
72线性回归诊断
721残差分析
722强影响点分析
723多重共线性分析
724小结线性回归诊断
73正则化方法
731岭回归
732LASSO回归
第8章Logistic回归构建初始信用评级
81Logistic回归的相关关系分析
82Logistic回归模型及实现
821Logistic回归与发生比
822Logistic回归的基本原理
823在Python中实现Logistic回归
83Logistic回归的极大似然估计
831极大似然估计的概念
832Logistics回归的极大似然估计
84模型评估
841模型评估方法
842ROC曲线的概念
843在Python中实现ROC曲线
第9章使用决策树进行初始信用评级
91决策树概述
92决策树算法
921ID3建树算法原理
922C45建树算法原理
923CART建树算法原理
924决策树的剪枝
93在Python中实现决策树
931建模
932模型评估
933决策树的可视化
934参数搜索调优
第10章神经网络
101神经元模型
102单层感知器
103BP神经网络
104多层感知器的scikitlearn代码实现
第11章分类器入门:最近邻域与朴素贝叶斯
111KNN算法
1111KNN算法原理
1112在Python中实现KNN算法
112朴素贝叶斯分类
1121贝叶斯公式
1122朴素贝叶斯分类原理
1123朴素贝叶斯的参数估计
1124在Python中实现朴素贝叶斯
第12章高级分类器:支持向量机
121线性可分与线性不可分
122线性可分支持向量机
1221函数间隔和几何间隔
1222学习策略
1223对偶方法求解
1224线性可分支持向量机例题
123线性支持向量机与软间隔最大化
124非线性支持向量机与核函数
1241核函数
1242非线性支持向量机的学习
1243示例与Python实现
125使用支持向量机的案例
第13章连续变量的特征选择与转换
131方法概述
132主成分分析
1321主成分分析简介
1322主成分分析原理
1323主成分分析的运用
1324在Python中实现主成分分析
133基于主成分的冗余变量筛选
134因子分析
1341因子分析模型
1342因子分析算法
1343在Python中实现因子分析
第14章客户分群与聚类
141聚类算法概述
142聚类算法基本概念
1421变量标准化与分布形态转换
1422变量的维度分析
143聚类模型的评估
144层次聚类
1441层次聚类原理
1442层次聚类在Python中的实现
145基于划分的聚类
1451kmeans聚类原理
1452kmeans聚类的应用场景
1453在Python中实现kmeans聚类
146基于密度的聚类
1461详谈基于密度聚类
1462在Python中实现密度聚类
147案例:通信客户业务使用偏好聚类
1471保持原始变量分布形态进行聚类
1472对变量进行分布形态转换后聚类
第15章关联规则
151关联规则
1511关联规则的一些概念
1512Apriori算法原理
1513在Python中实现关联规则
152序列模式
1521序列模式简介与概念
1522序列模式算法
1523在Python中实现序列模式
第16章排序模型的不平衡分类处理
161不平衡分类概述
162欠采样法
1621随机欠采样法
1622Tomek Link法
163过采样法
1631随机过采样法
1632SMOTE法
164综合采样法
165在Python中实现不平衡分类处理
第17章集成学习
171集成学习概述
172Bagging
1721Bagging算法实现
1722随机森林
173Boosting
174偏差(Bias)、方差(Variance)与集成方法
1741偏差与方差
1742Bagging与Boosting的直观理解
第18章时间序列建模
181认识时间序列
182效应分解法时间序列分析
183平稳时间序列分析ARMA模型
1831平稳时间序列
1832ARMA模型
1833在Python中进行AR建模
184非平稳时间序列分析ARIMA模型
1841差分与ARIMA模型
1842在Python中进行ARIMA建模
185ARIMA方法建模总结
第19章商业数据挖掘案例
191个人贷款违约预测模型
1911数据介绍
1912业务分析
1913数据理解
1914数据整理
1915建立分析模型
1916模型运用
1917流程回顾
192慈善机构精准营销案例
1921构造营销响应模型
1922构造客户价值预测模型
1923制订营销策略
1924案例过程回顾与不足
193旅游企业客户洞察案例
1931案例说明
1932数据预处理
1933使用kmeans聚类建模
1934对各个簇的特征进行描述
194个人3C产品精准营销案例
1941案例说明
1942数据预处理
1943建模
1944模型评估
1945下一步建议
附录A 数据说明
参考文献

推荐

车牌查询
桂ICP备20004708号-3