[套装书]零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)+零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)+趣学Python算法100例(3册)

作者
史靖涵 王宇韬 吴子湛 刘河飞 闫凯峰
丛书名
出版社
机械工业出版社
ISBN
9782107011638
简要
简介
内容简介书籍计算机书籍 ---------------------------8081589 - 零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)--------------------------- 在这个数据为王的时代,无论是从事何种行业,每天都会与海量的且各种类型的数据打交道,如何从这些数据中获取需要的信息,并进行相应的分析和可视化展示,是很多程序员和职场人士非常关心的一个问题。 本书以功能强大且上手操作容易的Python语言为基础,主要讲解Python爬虫的高级进阶技巧,主要侧重于各种应对网站反爬的相关技巧、爬虫框架、爬虫服务器部署等相关知识点。 本书共分8章,核心主题包括如何通过Cookie模拟登录网站从而解决网站反爬问题,如何通过进行验证码反爬识别,如何破解Ajax动态请求,讲解Webdriver拦截等其他反爬手段识别,如何进行手机APP爬虫,Scrapy爬虫框架,如何利用Scrapy爬虫框架应对反爬,爬虫的云服务器部署等。此外,书中对实际案例进行分析,让读者更好地理解和掌握爬虫知识。 本书适合各行各业的数据分析从业人员学习,也适合想要提高工作效率的职场人士,对于Python编程感兴趣的读者,本书也是一本不错的参考读物。 ---------------------------8081596 - 零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)--------------------------- 在大数据时代的今天,无论是产品开始还是精准化营销越来越离不开大数据的支持,如何从浩瀚的网络中获取自己想要的大数据?这就需要网络爬虫,而是世界上80%的爬虫都是基于Python开发出来的,所以python爬虫技术是大数据挖掘、分析与可视化的基础。 本书面向零基础读者,从如何合法使用爬虫和Python编辑环境的安装开始到不同类型爬虫程序的开发都进行了详尽的讲解,从Python基础语法到Requests库、正则表达式、Scrapy框架、Beautiful Soup一个都不少。同时在相关地方也讲解了部分数据挖掘和数据分析的基础内容。 ---------------------------8075095 - 趣学Python算法100例--------------------------- . 本书从一些经典算法出发,为读者展示了100个Python趣味编程实例。本书共12章,涵盖趣味算法入门、趣味数学问题、各种趣味整数、趣味分数、趣味素数、趣味逻辑推理、趣味游戏、趣味数组、趣味函数递归、定理与猜想、趣味图形及其他趣味问题。本书取材注重趣味性与实用性,内容涵盖Python编程的基础知识和常用算法,讲解时给出了实例的详细分析与代码实现,并对重点代码做了详细注释,还针对涉及的知识点做了拓展讲解。本书实例丰富,讲解通俗易懂,代码可读性及实操性强,适合Python编程的初学者和爱好者阅读,也适合算法设计爱好者阅读。另外,本书还可作为Python教学参考书。
目录
[套装书具体书目]
8075095 - 趣学Python算法100例 - 9787111665984 - 机械工业出版社 - 定价 99
8081589 - 零基础学Python网络爬虫案例实战全流程详解(高级进阶篇) - 9787111684749 - 机械工业出版社 - 定价 89.8
8081596 - 零基础学Python网络爬虫案例实战全流程详解(入门与提高篇) - 9787111683681 - 机械工业出版社 - 定价 99



---------------------------8081589 - 零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)---------------------------


前言
本书学习资源
第1章 Cookie模拟登录
1.1 Cookie模拟登录的原理 11
1.1.1 客户端与服务端 11
1.1.2 HTTP的无状态性 12
1.1.3 Cookie的含义与作用 13
1.1.4 Session的含义与作用 16
1.1.5 Cookie与Session的交互 17
1.2 案例实战1:模拟登录淘宝并爬取数据 20
1.2.1 获取Cookie模拟登录淘宝 20
1.2.2 爬取淘宝商品数据 25
1.3 案例实战2:模拟登录新浪微博并爬取数据 29
1.3.1 获取Cookie模拟登录新浪微博 30
1.3.2 爬取新浪微博热搜榜信息 34
★ 课后习题 38
第2章 验证码反爬的应对
2.1 图像验证码 39
2.1.1 超级鹰平台注册 40
2.1.2 超级鹰Python接口的使用 41
2.1.3 案例实战:英文验证码和中文验证码识别 46
2.2 计算题验证码 51
2.3 滑块验证码 54
2.4 滑动拼图验证码 57
2.4.1 初级版滑动拼图验证码 59
2.4.2 高级版滑动拼图验证码 63
2.5 点选验证码 68
2.5.1 本地网页识别 69
2.5.2 bilibili点选验证码识别初探 75
2.5.3 bilibili点选验证码识别升级:无限尝试版 80
★ 课后习题 85
第3章 Ajax动态请求破解
3.1 Ajax简介 86
3.1.1 不同的网页翻页方式的对比 86
3.1.2 Ajax的基本概念与工作原理 88
3.2 案例实战1:爬取开源中国博客频道 89
3.2.1 分析Ajax请求 89
3.2.2 爬取单页博客 92
3.2.3 爬取多页博客 96
3.3 案例实战2:爬取新浪微博 98
3.3.1 模拟登录新浪微博 100
3.3.2 分析单个微博页面 101
3.3.3 破解Ajax请求爬取多页 103
★ 课后习题 108
第4章 手机App内容爬取
4.1 相关软件安装 109
4.1.1 安装夜神模拟器 110
4.1.2 安装Node.js 111
4.1.3 安装JDK 113
4.1.4 安装Android Studio 117
4.1.5 安装Appium 118
4.1.6 安装Appium-Python-Client库 118
4.2 手机模拟操作初步尝试 119
4.2.1 用Android Studio连接夜神模拟器 119
4.2.2 用Python连接微信App 121
4.3 Appium基本操作与进阶操作 123
4.3.1 Appium基本操作 123
4.3.2 Appium进阶操作 126
4.4 案例实战:爬取微信朋友圈内容 132
4.4.1 获取微信朋友圈页面源代码 133
4.4.2 提取微信朋友圈内容 135
4.5 多开模拟器打开多个微信 138
4.5.1 多开模拟器 138
4.5.2 用Appium连接多个模拟器 139
★ 课后习题 143
第5章 Scrapy爬虫框架
5.1 Scrapy框架基础 144
5.1.1 Scrapy的安装方法 144
5.1.2 Scrapy的整体架构 146
5.1.3 Scrapy的常用指令 148
5.2 案例实战1:百度新闻爬取 156
5.2.1 Robots协议破解 157
5.2.2 User-Agent设置 158
5.2.3 百度新闻标题爬取 159
5.3 案例实战2:新浪新闻爬取 160
5.3.1 实体文件设置 161
5.3.2 新浪新闻爬取:爬取一条新闻 162
5.3.3 新浪新闻爬取:爬取多条新闻 166
5.3.4 新浪新闻爬取:生成文本文件报告 167
5.4 案例实战3:豆瓣电影海报图片爬取 170
5.4.1 用常规方法爬取 170
5.4.2 用Scrapy爬取 171
5.5 知识拓展:Python类的相关知识 176
5.5.1 类和对象的概念 176
5.5.2 类名、属性和方法 176
5.5.3 类的进阶知识 179
★ 课后习题 182
第6章 Scrapy应对反爬
6.1 中间件技术概述 183
6.1.1 下载器中间件 184
6.1.2 爬虫中间件 184
6.2 Scrapy+IP代理:爬取搜狗图片 185
6.2.1 用Requests库批量下载图片 186
6.2.2 用Scrapy框架批量下载图片 198
6.3 Scrapy+Cookie:模拟登录淘宝 202
6.3.1 在中间件文件中添加Cookie 202
6.3.2 编写并运行爬虫文件:爬取淘宝网页 204
6.4 Scrapy+Selenium库:爬取第一财经新闻 206
6.4.1 在中间件文件中添加Selenium库 207
6.4.2 编写并运行爬虫文件:爬取新闻信息 209
★ 课后习题 214
第7章 爬虫云服务器部署
7.1 HTML网页制作进阶 215
7.1.1 表格 217
7.1.2 列表 218
7.1.3 样式设计 220
7.1.4 背景设置 228
7.2 Flask Web编程基础 232
7.2.1 Flask入门 232
7.2.2 用render_template()函数渲染页面 237
7.2.3 用Flask连接数据库 242
7.3 Flask Web编程实战 247
7.3.1 展示单家公司的数据 247
7.3.2 展示多家公司的数据 252
7.3.3 展示舆情评分 255
7.3.4 只展示当天新闻 257
7.3.5 只展示负面新闻 258
7.4 云服务器的购买和登录 261
7.5 程序云端部署及网站搭建 265
7.5.1 搭建程序的运行环境 265
7.5.2 程序24小时运行及Flask项目部署 266
7.5.3 域名申请和使用 267
★ 课后习题 270



---------------------------8081596 - 零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)---------------------------


前言
本书学习资源
第1章 Python基础
1.1 Python快速上手 13
1.1.1 安装Python 13
1.1.2 编写第一个Python程序 15
1.1.3 PyCharm的安装与使用 16
1.1.4 Jupyter Notebook的使用 27
1.2 Python语法基础知识 34
1.2.1 变量、行、缩进与注释 34
1.2.2 数据类型:数字与字符串 36
1.2.3 数据类型:列表与字典、元组与集合 38
1.2.4 运算符 44
1.3 Python语句 46
1.3.1 if条件语句 46
1.3.2 for循环语句 47
1.3.3 while循环语句 49
1.3.4 try/except异常处理语句 50
1.4 函数与库 50
1.4.1 函数的定义与调用 51
1.4.2 函数的返回值与变量的作用域 52
1.4.3 常用内置函数介绍 54
1.4.4 库的导入与安装 57
★ 课后习题 61
第2章 爬虫第一步:获取网页源代码
2.1 爬虫核心库1:Requests库 62
2.1.1 如何查看网页源代码 62
2.1.2 用Requests库获取网页源代码:百度新闻 66
2.1.3 Requests库的“软肋” 70
2.2 爬虫核心库2:Selenium库 71
2.2.1 模拟浏览器及Selenium库的安装 71
2.2.2 用Selenium库获取网页源代码:新浪财经股票信息 74
2.3 网页结构分析 76
2.3.1 网页结构基础 76
2.3.2 网页结构进阶 76
★ 课后习题 82
第3章 爬虫第二步:数据解析与提取
3.1 用正则表达式解析和提取数据 83
3.1.1 正则表达式基础1:findall()函数 83
3.1.2 正则表达式基础2:非贪婪匹配之“(.*)” 85
3.1.3 正则表达式基础3:非贪婪匹配之“.*” 88
3.1.4 正则表达式基础4:自动考虑换行的修饰符re.S 90
3.1.5 正则表达式基础5:知识点补充 91
3.1.6 案例实战:提取百度新闻的标题、网址、日期和来源 93
3.2 用BeautifulSoup库解析和提取数据 98
3.2.1 解析特定标签的网页元素 98
3.2.2 解析特定属性的网页元素 100
3.2.3 提取标签中的网址 101
3.2.4 案例实战:新浪新闻标题和网址爬取 102
3.3 百度新闻爬取进阶探索 107
3.3.1 批量爬取多家公司的新闻 107
3.3.2 将爬取结果保存为文本文件 108
3.3.3 异常处理及24小时不间断爬取 111
3.3.4 批量爬取多页内容 113
3.4 证券日报网爬取实战 116
3.4.1 用正则表达式爬取 116
3.4.2 用BeautifulSoup库爬取 120
3.5 中证网爬取实战 121
3.6 新浪微博爬取实战 125
3.7 上海证券交易所上市公司PDF文件下载 128
3.7.1 用Requests库下载文件的基本方法 128
3.7.2 初步尝试下载上海证券交易所上市公司PDF文件 130
3.8 豆瓣电影Top 250排行榜海报图片下载 131
3.8.1 爬取单页 131
3.8.2 爬取多页 134
★ 课后习题 136
第4章 爬虫神器Selenium库深度讲解
4.1 Selenium库进阶知识 137
4.2 新浪财经股票行情数据爬取 142
4.2.1 用Selenium库爬取股票行情数据 142
4.2.2 用新浪财经API爬取股票行情数据 144
4.3 东方财富网数据爬取 149
4.3.1 上市公司股吧帖子爬取 149
4.3.2 上市公司新闻爬取 150
4.3.3 上市公司研报PDF文件下载 154
4.4 上海证券交易所问询函信息爬取及PDF文件下载 160
4.4.1 批量下载单个页面上的PDF文件 161
4.4.2 批量下载多个页面上的PDF文件 163
4.4.3 汇总问询函信息并导出为Excel工作簿 166
4.5 银行间拆借利率爬取 167
4.6 雪球股票评论信息爬取 173
4.7 京东商品评价信息爬取 175
4.7.1 用Selenium库爬取 175
4.7.2 用Requests库爬取 179
4.8 淘宝天猫商品销量数据爬取 183
4.9 Selenium库趣味案例:网页自动投票 186
★ 课后习题 188
第5章 数据处理与可视化
5.1 数据清洗与优化技巧 189
5.1.1 常用的数据清洗手段及日期格式的统一 189
5.1.2 文本内容过滤—剔除噪声数据 190
5.1.3 数据乱码问题处理 195
5.1.4 数据爬后处理之舆情评分 198
5.2 数据可视化分析—词云图绘制 200
5.2.1 用jieba库实现中文分词 200
5.2.2 用wordcloud库绘制词云图 204
5.2.3 案例实战:新浪微博词云图绘制 208
★ 课后习题 211
第6章 数据结构化与数据存储
6.1 数据结构化神器—pandas库 212
6.1.1 用read_html()函数快速爬取网页表格数据 212
6.1.2 pandas库在爬虫领域的核心代码知识 214
6.2 新浪财经—资产负债表获取 225
6.3 百度新闻—文本数据结构化 229
6.3.1 将单家公司的新闻导出为Excel工作簿 229
6.3.2 将多家公司的新闻导出为Excel工作簿 230
6.4 百度爱企查—股权穿透研究 231
6.4.1 单层股权结构爬取 232
6.4.2 多层股权结构爬取 235
6.5 天天基金网—股票型基金信息爬取 237
6.5.1 爬取基金信息表格 238
6.5.2 爬取基金的详情页面网址 239
6.6 集思录—可转债信息爬取 242
6.7 东方财富网—券商研报信息爬取 243
6.7.1 爬取券商研报信息表格 244
6.7.2 爬取研报的详情页面网址 245
6.8 数据存储—MySQL快速入门 247
6.8.1 MySQL的安装 247
6.8.2 MySQL的基本操作 252
6.9 用Python操控数据库 261
6.9.1 用PyMySQL库操控数据库 261
6.9.2 案例实战:百度新闻数据爬取与存储 267
6.9.3 用pandas库操控数据库 271
★ 课后习题 276
第7章 Python多线程和多进程爬虫
7.1 理解线程与进程 277
7.1.1 计算机硬件结构基础知识 277
7.1.2 线程与进程 279
7.1.3 单线程、多线程与多进程 281
7.1.4 爬虫任务中的多线程与多进程 282
7.2 Python多线程爬虫编程实战 285
7.2.1 Python多线程编程基础知识 285
7.2.2 Python多线程编程进阶知识 294
7.2.3 案例实战:多线程爬取百度新闻 300
7.3 Python多进程爬虫编程实战 302
7.3.1 Python多进程编程基础知识 303
7.3.2 Python多进程编程进阶知识 305
7.3.3 案例实战:多进程爬取百度新闻 307
★ 课后习题 309
第8章 IP代理使用技巧与实战
8.1 结合Requests库使用IP代理 310
8.1.1 IP代理基础知识 310
8.1.2 IP代理的使用 311
8.2 IP代理实战1:用Requests库爬取公众号文章 315
8.2.1 直接用Requests库爬取 315
8.2.2 添加IP代理进行爬取 324
8.2.3 添加智能IP切换系统 327
8.3 结合Selenium库使用IP代理 334
8.4 IP代理实战2:用Selenium库爬取公众号文章 335
8.4.1 直接用Selenium库爬取 335
8.4.2 添加IP代理进行爬取 337
8.4.3 添加智能IP切换系统 338
★ 课后习题 340
后记 342



---------------------------8075095 - 趣学Python算法100例---------------------------


前言
第1章 趣味算法入门 1
1.1 抓交通肇事犯 1
1.2 兔子产子 4
1.3 牛顿迭代法求方程根 6
1.4 百钱百鸡 9
1.5 借书方案知多少 14
1.6 打鱼还是晒网 17
1.7 最佳存款方案 23
1.8 冒泡排序 24
1.9 折半查找 29
1.10 数制转换 33
第2章 趣味数学问题 39
2.1 三色球 39
2.2 出售金鱼 41
2.3 求车速 43
2.4 个人所得税 46
2.5 存钱 51
2.6 分糖果 54
2.7 爱因斯坦的数学题 57
2.8 猜牌术 59
2.9 舍罕王的失算 62
2.10 马克思手稿中的数学题 64
2.11 换分币 66
第3章 各种趣味整数 69
3.1 回文数 69
3.2 水仙花数 72
3.3 阿姆斯特朗数 74
3.4 完数 76
3.5 亲密数 79
3.6 自守数 82
3.7 高次方数的尾数 85
3.8 黑洞数 87
3.9 勾股数 90
3.10 不重复的3位数 94
第4章 趣味分数 96
4.1 将真分数分解为埃及分数 96
4.2 列出真分数序列 101
4.3 多项式之和 105
4.4 最大公约数 107
4.5 最小公倍数 111
4.6 歌星大奖赛 115
4.7 分数比较 121
4.8 计算分数的精确值 125
第5章 趣味素数 128
5.1 素数 128
5.2 哥德巴赫猜想 134
5.3 要发就发 139
5.4 可逆素数 142
5.5 回文素数 146
5.6 孪生素数 148
5.7 梅森素数 151
第6章 趣味逻辑推理 153
6.1 谁家孩子跑得最慢 153
6.2 新郎和新娘 157
6.3 谁在说谎 159
6.4 谁是窃贼 162
6.5 旅客国籍 165
6.6 委派任务 171
6.7 谜语博士的难题 173
6.7.1 谜语博士的难题(一) 173
6.7.2 谜语博士的难题(二) 176
6.8 黑与白 180
第7章 趣味游戏 183
7.1 黑白子交换 183
7.2 自动发牌 189
7.3 常胜将军 192
7.4 人机猜数 193
7.5 搬山游戏 197
7.6 抢30游戏 200
7.7 24点游戏 204
7.8 掷骰子 210
第8章 趣味数组 214
8.1 平分7筐鱼 214
8.2 农夫过河 216
8.3 矩阵转置 222
8.4 狼追兔子 227
8.5 选美比赛 228
8.6 邮票组合 231
8.7 魔方阵 232
8.8 马踏棋盘 237
8.9 删除“*”符号 243
8.10 在指定位置插入字符 247
第9章 趣味函数递归 249
9.1 猴子吃桃 249
9.2 杨辉三角形 251
9.3 卡布列克常数 255
9.4 递归解决年龄问题 259
9.5 递归解决分鱼问题 263
9.6 汉诺塔问题 267
9.7 逆序输出数字 271
第10章 定理与猜想 277
10.1 尼科彻斯定理 277
10.2 奇数平方的有趣性质 281
10.3 回文数的形成 282
10.4 四方定理 285
10.5 角谷猜想 289
10.6 π的近似值 291
第11章 趣味图形 294
11.1 画直线 294
11.2 画圆和圆弧 302
11.3 画彩色图形 304
11.4 绘制余弦曲线 306
11.5 绘制空心圆 313
11.6 绘制空心菱形 315
11.7 填充彩色图形 318
11.8 绘制饼状图 320
第12章 其他趣味问题 323
12.1 约瑟夫环 323
12.2 数据加密 326
12.3 三色旗 329
12.4 双色球 334
12.5 填表格 336
12.6 求出符合要求的素数 340
12.7 统计学生成绩 346

推荐

车牌查询
桂ICP备20004708号-3