| 作者 |
| [印] 萨扬·穆霍帕迪亚(Sayan Mukhopadhyay) |
| 丛书名 |
| 数据分析与决策技术丛书 |
| 出版社 |
| 机械工业出版社 |
| ISBN |
| 9787111617020 |
| 简要 |
| 简介 |
| 内容简介书籍计算机书籍 本书介绍高级数据分析概念的广泛基础,以及最近的数据库革命,如Neo4j、弹性搜索和MongoDB。本书讨论了如何实现包括局部爬取在内的ETL技术,并应用于高频算法交易和目标导向的对话系统等领域。还有一些机器学习概念的例子,如半监督学习、深度学习和NLP。本书还涵盖了重要的传统数据分析技术,如时间序列和主成分分析等。 |
| 目录 |
| 译者序 作者简介 技术审核员简介 致谢 第1章 简介 001 1.1 为何选择Python 001 1.2 何时避免使用Python 002 1.3 Python中的面向对象编程 002 1.4 在Python中调用其他语言 010 1.5 将Python模型作为微服务 011 1.6 高性能API和并发编程 014 第2章 Python结构化数据提取、转换和加载 019 2.1 MySQL 020 2.1.1 如何安装MySQLdb 020 2.1.2 数据库连接 020 2.1.3 INSERT操作 020 2.1.4 READ操作 021 2.1.5 DELETE操作 022 2.1.6 UPDATE操作 023 2.1.7 COMMIT操作 023 2.1.8 ROLL-BACK操作 024 2.2 Elasticsearch 026 2.3 Neo4j Python驱动 029 2.4 neo4j-rest-client 029 2.5 内存数据库 029 2.6 Python版本MongoDB 030 2.6.1 将数据导入集合 031 2.6.2 使用pymongo创建连接 031 2.6.3 访问数据库对象 032 2.6.4 插入数据 032 2.6.5 更新数据 032 2.6.6 删除数据 032 2.7 Pandas 033 2.8 Python非结构化数据提取、转换和加载 034 2.8.1 电子邮件解析 034 2.8.2 主题爬取 036 第3章 基于Python的监督学习 043 3.1 使用Python实现降维 043 3.1.1 相关性分析 044 3.1.2 主成分分析 046 3.1.3 互信息 048 3.2 使用Python进行分类 049 3.3 半监督学习 050 3.4 决策树 050 3.4.1 哪个属性优先 050 3.4.2 随机森林分类器 052 3.5 朴素贝叶斯分类器 052 3.6 支持向量机 054 3.7 最近邻分类器 055 3.8 情绪分析 056 3.9 图像识别 057 3.10 使用Python进行回归 058 3.10.1 最小二乘估计 059 3.10.2 逻辑回归 060 3.11 分类和回归 060 3.12 使模型高估或低估 061 3.13 处理分类型数据 062 第4章 无监督学习—聚类 067 4.1 K均值聚类 068 4.2 选择K—肘部法则 071 4.3 距离或相似性度量 071 4.3.1 属性 072 4.3.2 一般及欧氏距离 072 4.3.3 平方欧氏距离 074 4.3.4 字符串之间的编辑距离 074 4.4 文档上下文的相似性 076 4.5 什么是层次聚类 077 4.5.1 自下而上的方法 078 4.5.2 聚类之间的距离 079 4.5.3 自上而下的方法 080 4.5.4 图论方法 084 4.6 如何判断聚类结果是否良好 085 第5章 深度学习和神经网络 087 5.1 反向传播 088 5.1.1 反向传播方法 088 5.1.2 广义Delta规则 088 5.1.3 输出层权重更新 089 5.1.4 隐藏层权重更新 090 5.1.5 反向传播网络小结 091 5.2 反向传播算法 092 5.3 其他算法 094 5.4 TensorFlow 094 5.5 递归神经网络 099 第6章 时间序列 107 6.1 变化的分类 107 6.2 包含趋势的序列分析 107 6.2.1 曲线拟合 108 6.2.2 从时间序列中去除趋势 109 6.3 包含周期性的序列数据分析 110 6.4 从时间序列中去除周期性 111 6.4.1 滤波 111 6.4.2 差分 112 6.5 转换 112 6.5.1 稳定方差 112 6.5.2 使周期效应累加 113 6.5.3 使数据呈正态分布 113 6.6 平稳时间序列 114 6.6.1 平稳过程 114 6.6.2 自相关和相关图 114 6.6.3 自协方差和自相关函数的估计 115 6.7 使用Python进行时间序列分析 116 6.7.1 有用的方法 116 6.7.2 自回归过程 118 6.7.3 估计AR过程的参数 119 6.8 混合ARMA模型 122 6.9 集成ARMA模型 123 6.10 傅里叶变换 124 6.11 一个特殊的场景 125 6.12 数据缺失 127 第7章 大数据分析 129 7.1 Hadoop 129 7.1.1 MapReduce编程 129 7.1.2 partitioning函数 130 7.1.3 combiner函数 131 7.1.4 HDFS文件系统 140 7.1.5 MapReduce设计模式 140 7.2 Spark 146 7.3 云分析 148 7.4 物联网 156 |