| 作者 |
| 张良均 谭立云 刘名军 江建明 |
| 丛书名 |
| 出版社 |
| 机械工业出版社 |
| ISBN |
| 9782012111434 |
| 简要 |
| 简介 |
| 内容简介书籍计算机书籍 ---------------------------零基础学Python爬虫、数据分析与可视化从入门到精通--------------------------- 在这个数据为王的时代,无论是从事何种行业,每天都会与海量的且类型多样的数据打交道,如何从这些数据中获取需要的信息,并进行相应的分析和可视化展示,是很多程序员和职场人士非常关心的一个问题。本书以功能强大且容易上手操作Python语言为基础,全面讲解了数据的获取、处理、分析及可视化的呈现。 全书共17章,内容涉及Python基础知识、Python数据处理和分析的实用模块、数据分析、数据爬虫技术、数据可视化等方面。还对数据分析中的几大经典算法,数据决策树、关联规则、聚类与分群也进行了详细的介绍。为了便于读者对Python知识的掌握,本书还提供了大量的编程代码以及实战案例。 本书适合各行各业的数据分析从业人员学习,也适合想要提高工作效率的职场人士,对于Python编程感兴趣的读者,本书也是一本不错的参考读物。 ---------------------------Python数据分析与挖掘实战(第2版)--------------------------- 如果没有实际和外国人打过交道,英文里一些细微的差别,我们将很难体会到。比如,cook the books,做假账,而不是把书煮了吃;in store和in a store,price list和list price,看起来差不多,意思却大不同。外贸大咖毅冰,记录了他遇到的366个情境故事,用对比分析的方法,带你轻松学习和体会“刚刚好”的地道英文。 本书从日常生活会话,到商务邮件恰当遣词用句,再到商务沟通中摆脱死板、灵活多样化表达同一个意思,都有详细介绍。书中的很多片段,是作者在美国及日常与外国人打交道时,因理解和表达不对而实际上发生的糗事和故事。纠错、提升、丰富自己的英语,现在就开读吧。随便翻开任意一页,保证令你大开眼界,即刻学会地地道道的英语。 |
| 目录 |
---------------------------零基础学Python爬虫、数据分析与可视化从入门到精通--------------------------- 第1章 Python编程环境搭建 1.1 为什么用Python进行大数据分析和可视化 1.2 安装和配置anaconda 1.3 安装和配置Jupyter Notebook 1.4 模块的安装与导入 1.4.1 常规导入法 1.4.2 from语句导入法 第2章 Python的基础语法 2.1 变量与编码基本规范 2.1.1 变量的命名与赋值 2.1.2 缩进 2.1.3 注释 2.2 数据类型 2.2.1 数字 2.2.2 字符串 2.2.3 列表 2.2.4 字典 2.3 运算符 2.3.1 算术运算符 2.3.2 比较运算符 2.3.3 赋值运算符 2.3.4 逻辑运算符 2.4 Python语句 2.4.1 if条件语句 2.4.2 for循环语句 2.4.3 while循环语句 2.4.4 嵌套语句 2.4.5 break、countinue、pass、else语句 2.5 Python函数 2.5.1 内置函数 2.5.2 自定义函数 第3章 数组计算的数学模块——Nmupy 3.1 Ndarray对象 3.1.1 创建ndarray数组 3.1.2 ndarray数组的基本属性 3.2 数组的索引与切片 3.2.1 一维数组的索引和切片 3.2.2 多维数组的索引和切片 3.3 数组重塑 3.3.1 一维数组的重塑 3.3.2 多维数组的重塑 3.3.3 数组的转置 3.4 数组的处理 3.4.1 数组类型的转换 3.4.2 处理缺失值、重复值 3.4.3 数组的拆分与合并 3.5 数组的运算 第4章 数据导入和整理模块——pandas 4.1 pandas数据结构 4.1.1 series数据结构 4.1.2 dataframe数据结构 4.2 数据的读取、查看与导出 4.2.1 导入外部数据(导入xlsx、csv等) 4.2.2 查看部分数据 4.2.3 数据文件导出格式和路径的设置(导出为xlsx,csv等) 4.3 数据类型的转换 4.4 数据的替换和查找 4.4.1 一对一替换 4.4.2 多对一替换 4.4.3 多对多替换 4.4.4 数值查找 4.5 数据的处理 4.5.1 处理空值、缺失值、重复值和异常值 4.5.3 数据的筛选 4.5.4 数据的排序 4.5.5 数据的删除 4.5.6 数据的分组与分列 4.5.7 数据的合并 4.5.8 数据透视表 4.6 数据表的处理 4.6.1 查看数据表的大小 4.6.2 行列互换 4.6.2 长宽表的转换 4.6.2 数据表的拼接 4.7 索引设置 4.7.1 添加索引 4.7.2 重新设置索引 4.7.3 重命名索引 4.7.4 重置索引 4.8 数据的运算 4.8.1 数据的汇总 4.8.3 数值分布情况(均值、最值) 第5章 使用Python进行基本的数据分析 5.1 相关性分析 5.2 方差分析 5.3 描述统计 5.4 线性回归分析 5.4.1 一元线性回归分析 5.4.2 多元线性回归 5.5 逻辑回归 5.6 预测分析 5.5.1 指数平滑 5.5.2 移动平均 5.6 假设检验 第6章 爬虫基础 6.1 网页结构初步认识 6.2 requests库使用: 6.3 案例 6.4 正则表达式详解 6.5 BeautifulSoup解析 6.6 数据乱码处理方法 6.7 综合案例 第7章 复杂爬虫与反爬虫 7.1 Selenium基础 7.2 Selenium进阶 7.3 综合案例 7.4 IP反爬 7.5 Cookie池模拟登陆反爬 第8章 爬虫数据结构化与数据存储 8.1 表格类数据的快速获取 8.2 数据结构化 8.3 数据库存与读取 8.4 综合案例 第9章 中文数据处理 9.1 jieba模块概述 9.2 读取文本内容并进行分词 9.3 提取特定长度的分词 9.4 统计高频词汇的词频 9.5 实战案例 第10章 线性与逻辑回归 10.1 线性回归概念 10.2一元线性回归 10.1.2 一元线性回归编程实践 10.2.1 一元线性回归模型与 10.3多元线性回归 10.3.1 多元线性回归模型与 10.3.2 多元线性回归编程实践 10.4 逻辑回归 10.4.1 逻辑回归概念与模型 10.4.2 逻辑回归编程实践 第11章 决策树模型与分析 11.1 决策树模型概述 11.2 ID3算法 11.2.1 特征选择——信息增益 11.2.2 ID3决策树的构造 11.2.3 ID3决策树的剪枝 11.3 其他树模型 11.3.1 C4.5算法 11.3.2 CART算法 第12章 数据聚类与分群分析 12.1 聚类分析概述 12.2 Kmeans算法 12.2.1 Kmeans算法的原理 12.2.2 Kmeans算法的代码实现 12.3 DBSCAN算法 12.3.1 DBSCAN算法的原理 12.3.2 DBSCAN算法的代码实现 第13章 关联规则分析 13.1 关联分析概述 13.2 Apriori算法 13.2.1 Apriori算法的数学模型 13.2.2 Apriori算法的代码实现 13.3 FP-Growth算法 13.3.1 FP-Growth算法的数学模型 13.3.2 FP-Growth算法代码实现 第14章 数据可视化模块——Matplotlib 14.1 绘制简单的图表 14.1.1柱形图和条形图 14.1.2折线图和面积图 14.1.3散点图和气泡图 14.1.4 饼图和圆环图 14.1.5 组合图 14.2 添加和设置图表元素 14.2.1添加图表标题和坐标轴标题 14.2.2设置图例和数据系列 14.2.3调整刻度范围和数据标签 14.2.4设置坐标轴的刻度样式 14.3 绘制特殊图表 14.3.1雷达图 14.3.2箱型图 14.3.3热力图 14.3.4旭日图 14.4 图表的绘制技巧 14.4.1 同画布上绘制多个图表 14.4.2 给不同段的线设置不同的颜色 14.4.3 为图表添加描述或注释 14.4.4添加拟合曲线 第15章 数据可视化模块——Pyecharts 15.1三维柱形图 15.2玫瑰饼图 15.3漏斗图 15.4 云图 15.5雷达图 15.6仪表盘 15.7水球图 15.8 3D图表 第16章 综合案例:当当图书销售信息获取与分析 16.1 项目分析 16.2 数据爬取 16.3 数据清洗 16.3 数据分析 16.4 数据可视化 第17章 综合案例:股票信息获取与分析 17.1 项目分析 17.2 数据爬取 17.3 数据清洗 17.3 数据分析 17.4 数据可视化 ---------------------------Python数据分析与挖掘实战(第2版)--------------------------- 前言 基础篇 第1章 数据挖掘基础 2 1.1 某知名连锁餐饮企业的困惑 2 1.2 从餐饮服务到数据挖掘 4 1.3 数据挖掘的基本任务 5 1.4 数据挖掘建模过程 5 1.4.1 定义挖掘目标 6 1.4.2 数据取样 6 1.4.3 数据探索 7 1.4.4 数据预处理 8 1.4.5 挖掘建模 8 1.4.6 模型评价 8 1.5 常用数据挖掘建模工具 9 1.6 小结 11 第2章 Python数据分析简介 12 2.1 搭建Python开发平台 14 2.1.1 所要考虑的问题 14 2.1.2 基础平台的搭建 14 2.2 Python使用入门 16 2.2.1 运行方式 16 2.2.2 基本命令 17 2.2.3 数据结构 19 2.2.4 库的导入与添加 24 2.3 Python数据分析工具 26 2.3.1 NumPy 27 2.3.2 SciPy 28 2.3.3 Matplotlib 29 2.3.4 pandas 31 2.3.5 StatsModels 33 2.3.6 scikit-learn 33 2.3.7 Keras 34 2.3.8 Gensim 36 2.4 配套附件使用设置 37 2.5 小结 38 第3章 数据探索 39 3.1 数据质量分析 39 3.1.1 缺失值分析 40 3.1.2 异常值分析 40 3.1.3 一致性分析 44 3.2 数据特征分析 44 3.2.1 分布分析 44 3.2.2 对比分析 48 3.2.3 统计量分析 51 3.2.4 周期性分析 54 3.2.5 贡献度分析 55 3.2.6 相关性分析 58 3.3 Python主要数据探索函数 62 3.3.1 基本统计特征函数 62 3.3.2 拓展统计特征函数 66 3.3.3 统计绘图函数 67 3.4 小结 74 第4章 数据预处理 75 4.1 数据清洗 75 4.1.1 缺失值处理 75 4.1.2 异常值处理 80 4.2 数据集成 80 4.2.1 实体识别 81 4.2.2 冗余属性识别 81 4.2.3 数据变换 81 4.2.4 简单函数变换 81 4.2.5 规范化 82 4.2.6 连续属性离散化 84 4.2.7 属性构造 87 4.2.8 小波变换 88 4.3 数据归约 91 4.3.1 属性归约 91 4.3.2 数值归约 95 4.4 Python主要数据预处理函数 98 4.5 小结 101 第5章 挖掘建模 102 5.1 分类与预测 102 5.1.1 实现过程 103 5.1.2 常用的分类与预测算法 103 5.1.3 回归分析 104 5.1.4 决策树 108 5.1.5 人工神经网络 115 5.1.6 分类与预测算法评价 120 5.1.7 Python分类预测模型特点 125 5.2 聚类分析 125 5.2.1 常用聚类分析算法 126 5.2.2 K-Means聚类算法 127 5.2.3 聚类分析算法评价 132 5.2.4 Python主要聚类分析算法 133 5.3 关联规则 135 5.3.1 常用关联规则算法 136 5.3.2 Apriori算法 136 5.4 时序模式 142 5.4.1 时间序列算法 142 5.4.2 时间序列的预处理 143 5.4.3 平稳时间序列分析 145 5.4.4 非平稳时间序列分析 148 5.4.5 Python主要时序模式算法 156 5.5 离群点检测 159 5.5.1 离群点的成因及类型 160 5.5.2 离群点检测方法 160 5.5.3 基于模型的离群点检测方法 161 5.5.4 基于聚类的离群点检测方法 164 5.6 小结 167 实战篇 第6章 财政收入影响因素分析及预测 170 6.1 背景与挖掘目标 170 6.2 分析方法与过程 171 6.2.1 分析步骤与流程 172 6.2.2 数据探索分析 172 6.2.3 数据预处理 176 6.2.4 模型构建 178 6.3 上机实验 184 6.4 拓展思考 185 6.5 小结 186 第7章 航空公司客户价值分析 187 7.1 背景与挖掘目标 187 7.2 分析方法与过程 188 7.2.1 分析步骤与流程 189 7.2.2 数据探索分析 189 7.2.3 数据预处理 200 7.2.4 模型构建 207 7.2.5 模型应用 212 7.3 上机实验 214 7.4 拓展思考 215 7.5 小结 216 第8章 商品零售购物篮分析 217 8.1 背景与挖掘目标 217 8.2 分析方法与过程 218 8.2.1 数据探索分析 219 8.2.2 数据预处理 224 8.2.3 模型构建 226 8.3 上机实验 232 8.4 拓展思考 233 8.5 小结 233 第9章 基于水色图像的水质评价 234 9.1 背景与挖掘目标 234 9.2 分析方法与过程 235 9.2.1 分析步骤与流程 236 9.2.2 数据预处理 236 9.2.3 模型构建 240 9.2.4 水质评价 241 9.3 上机实验 242 9.4 拓展思考 242 9.5 小结 243 第10章 家用热水器用户行为分析与事件识别 244 10.1 背景与挖掘目标 244 10.2 分析方法与过程 245 10.2.1 数据探索分析 246 10.2.2 数据预处理 249 10.2.3 模型构建 260 10.2.4 模型检验 261 10.3 上机实验 262 10.4 拓展思考 264 10.5 小结 265 第11章 电子商务网站用户行为分析及服务推荐 266 11.1 背景与挖掘目标 266 11.2 分析方法与过程 267 11.2.1 分析步骤与流程 267 11.2.2 数据抽取 269 11.2.3 数据探索分析 270 11.2.4 数据预处理 279 11.2.5 构建智能推荐模型 283 11.3 上机实验 291 11.4 拓展思考 293 11.5 小结 293 第12章 电商产品评论数据情感分析 294 12.1 背景与挖掘目标 294 12.2 分析方法与过程 295 12.2.1 评论预处理 296 12.2.2 评论分词 297 12.2.3 构建模型 303 12.3 上机实验 315 12.4 拓展思考 316 12.5 小结 318 提高篇 第13章 基于Python引擎的开源数据挖掘建模平台(TipDM) 320 13.1 平台简介 321 13.1.1 模板 321 13.1.2 数据源 322 13.1.3 工程 323 13.1.4 系统组件 324 13.1.5 TipDM数据挖掘建模平台的本地化部署 326 13.2 快速构建数据挖掘工程 327 13.2.1 导入数据 329 13.2.2 配置输入源组件 331 13.2.3 配置缺失值处理组件 332 13.2.4 配置记录选择组件 334 13.2.5 配置数据标准化组件 334 13.2.6 配置K-Means组件 336 13.3 小结 339 |