中图网

>

软件工程/开发项目管理

PYTHON爬虫从菜鸟到高手

作者：李宁

出版社：清华大学出版社出版时间：2023-09-01

开本：其他页数： 488

本类榜单：计算机/网络销量榜

中图价:¥95.2(8.0折) 定价 ~~¥119.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满39元免运费

?新疆、西藏除外

本类五星书更多>

>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥38.8¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥49.3¥69
>
第一行代码Android

第一行代码Android

¥58.4¥99
>
深度学习

深度学习

¥92.4¥168
>
Unreal Engine 4蓝图完全学习教程

Unreal Engine 4蓝图完全学习教程

¥72.2¥168
>
深入理解计算机系统-原书第3版

深入理解计算机系统-原书第3版

¥104.3¥139
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

¥21¥49.9

商品详情
商品评论(0条)

中图价:¥95.2 加入购物车

版权信息
本书特色
内容简介
目录
相关资料
作者简介

PYTHON爬虫从菜鸟到高手版权信息

ISBN：9787302640516
条形码：9787302640516 ; 978-7-302-64051-6
装帧：平装-胶订
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
软件工程/开发项目管理

PYTHON爬虫从菜鸟到高手本书特色

“私房菜谱”
1. Python爬虫基础知识
2. Python网络库
3. Python解析库
4. Python数据存储
5. Python异步数据抓取
6. Python Splash爬虫
7. Python移动App数据抓取
8. Python多线程爬虫
9. Python可见即可“爬”
10. Python Scrapy实战
11. Python识别验证码
12. Python项目实战
“实战项目”
1. 抓取小说目录与正文
2. 抓取豆瓣网图书榜单
3. 抓取房屋租赁信息
4. 抓取豆瓣网音乐排行榜
5. 抓取百度网站图片搜索中的图片“私房菜谱” 1. Python爬虫基础知识 2. Python网络库 3. Python解析库 4. Python数据存储 5. Python异步数据抓取 6. Python Splash爬虫 7. Python移动App数据抓取 8. Python多线程爬虫 9. Python可见即可“爬” 10. Python Scrapy实战 11. Python识别验证码 12. Python项目实战 “实战项目” 1. 抓取小说目录与正文 2. 抓取豆瓣网图书榜单 3. 抓取房屋租赁信息 4. 抓取豆瓣网音乐排行榜 5. 抓取百度网站图片搜索中的图片 6. 检测滑动验证码 7. 可视化爬虫抓取和分析网站图书评论

PYTHON爬虫从菜鸟到高手内容简介

本书从实战角度系统论述了Python 爬虫技术的核心知识，并通过大量的真实项目帮助读者深入掌握Python 爬虫技术及其实现。本书提供了大量实战案例，演绎采用各种技术编写Python 爬虫的方式。读者可以任意组合使用这些技术，完成非常复杂的爬虫应用。本书共20 章，分为五篇。**篇：基础知识（第1～2 章），主要包括Python 编程环境的搭建、IDE 的安装和使用、HTTP 的基础知识、网页基础（HTML、CSS、JavaScript）、爬虫的基本原理、Session、Cookie。第二篇：网络库（第3～5 章），主要包括网络库urllib、urllib3 和requests 的核心使用方法，例如，发送HTTP 请求、处理超时、设置HTTP 请求头、处理中文字符、搭建和使用代理、解析链接、Robots 协议等。第三篇：解析库（第6～9 章），主要包括3 个常用解析库（lxml、Beautiful Soup 和pyquery）的使用方法，同时介绍了多种用于分析HTML 代码的技术，例如，正则表达式、XPath、CSS 选择器、方法选择器等。第四篇：数据存储（第10～11 章），主要包括Python 中数据存储的解决方案，如文件存储和SQLite 数据库。第五篇：爬虫高级应用（第12～20 章），主要包括Python 爬虫的一些高级技术，如抓取异步数据、Selenium、Splash、抓取移动App 数据、Appium、多线程爬虫、爬虫框架Scrapy、通过OpenCV 技术识别验证码；*后给出一个综合的实战案例，该案例综合了Python 爬虫、数据存储、PyQt、多线程、数据可视化、Web 等多种技术实现一个可视化爬虫。

PYTHON爬虫从菜鸟到高手目录

**篇基础知识
第1章开发环境配置3
1.1搭建Python编程环境.3
1.1.1获取Python安装包3
1.1.2安装Windows版的Python开发包4
1.1.3安装macOS版的Python开发包4
1.1.4安装Linux版的Python开发包.5
1.2安装AnacondaPython开发环境5
1.3消除PythonREPL中的错误和警告6
1.4安装PyCharm.7
1.5配置PyCharm.8
1.6小结9
第2章爬虫基础10
2.1HTTP基础.10
2.1.1URI和URL10
2.1.2超文本11
2.1.3HTTP与HTTPS11
2.1.4HTTP的请求过程13
2.1.5请求16
2.1.6响应19
2.2网页基础22
2.2.1HTML基础.22
2.2.2CSS基础.23
2.2.3CSS选择器.23
2.2.4JavaScript25
2.3爬虫的基本原理25
2.3.1爬虫的分类26
2.3.2爬虫抓取数据的方式和手段.26
2.4Session与Cookie27
6Python爬虫从菜鸟到高手
2.4.1静态页面和动态页面.27
2.4.2无状态HTTP与Cookie28
2.4.3利用Session和Cookie保持状态28
2.4.4查看网站的Cookie29
2.4.5HTTP状态何时会失效30
2.5项目实战：抓取所有的网络资源31
实例2.1基于递归算法的爬虫的代码.34
2.6项目实战：抓取博客文章列表.35
实例2.2抓取博客园首页文章列表的爬虫36
2.7小结38
第二篇网络库
第3章网络库urllib41
3.1urllib简介41
3.2发送请求与获得响应42
3.2.1用urlopen函数发送HTTPGET请求.42
实例3.1使用HTTPResponse读取响应数据42
3.2.2用urlopen函数发送HTTPPOST请求.43
实例3.2使用urlopen函数发送HTTPPOST请求，并获得返回数据43
3.2.3请求超时44
实例3.3捕捉urlopen函数的超时异常.45
3.2.4设置HTTP请求头45
实例3.4修改和提交HTTP请求头.45
3.2.5设置中文HTTP请求头.47
实例3.5设置和解码中文HTTP请求头.48
3.2.6请求基础验证页面49
实例3.6请求基础验证页面.50
3.2.7搭建代理与使用代理.53
实例3.7通过代理访问Web页面55
3.2.8读取和设置Cookie55
实例3.8读取Cookie.56
实例3.9将Cookie保存为Mozille格式和LWP格式57
实例3.10装载和发送Cookie.58
3.3异常处理59
3.3.1URLError59
实例3.11捕捉发送请求抛出的异常.59
3.3.2HTTPError60
实例3.12使用HTTPError类和URLError类捕捉异常.60
3.4解析链接61
3.4.1拆分与合并URL方法一（urlparse与urlunparse）61
实例3.13使用urlparse函数和urlunparse函数拆分与合并URL62
3.4.2拆分与合并URL方法二（urlsplit与urlunsplit）63
实例3.14使用urlsplit函数和urlunsplit函数拆分与合并URL.63
3.4.3连接URL（urljoin）64
实例3.15使用urljoin函数连接URL64
3.4.4URL编码（urlencode）.65
实例3.16使用urlencode函数编码包含中文的URL65
3.4.5编码与解码（quote与unquote）65
实例3.17使用quote函数和unquote对URL中的参数编码和解码65
3.4.6参数转换（parse_qs与parse_qsl）65
实例3.18拆分由多个参数组成的字符串66
3.5Robots协议66
3.5.1Robots协议简介66
3.5.2分析Robots协议68
实例3.19用robots.txt约束爬虫68
3.6小结69
第4章网络库urllib3.70
4.1urllib3简介70
4.2urllib3模块70
4.3发送HTTPGET请求71
实例4.1获取百度的搜索结果.71
4.4发送HTTPPOST请求72
实例4.2发送HTTPPOST请求，并接收返回结果.72
4.5HTTP请求头73
实例4.3搜索天猫商城中的数据.74
4.6HTTP响应头76
实例4.4获取并输出HTTP响应头信息.76
4.7上传文件76
实例4.5将任意文件上传到服务端.77
4.8超时78
实例4.6连接超时和读取超时.78
4.9小结79
第5章网络库requests80
5.1基本用法80
8Python爬虫从菜鸟到高手
5.1.1requests的HelloWorld80
实例5.1发送HTTPGET请求，并获取响应的返回信息80
5.1.2HTTPGET请求81
实例5.2设置HTTPGET请求参数.81
5.1.3添加HTTP请求头82
实例5.3设置HTTP请求头.82
5.1.4抓取二进制数据83
实例5.4抓取并保存图像.83
5.1.5HTTPPOST请求84
实例5.5发送HTTPPOST请求，并获取响应数据.84
5.1.6响应数据84
实例5.6向简书发送HTTPGET请求，并输出响应结果85
5.2高级用法85
5.2.1上传文件86
实例5.7上传本地图像.86
5.2.2处理Cookie87
实例5.8获取和发送Cookie.87
5.2.3使用同一个会话（Session）.88
实例5.9Session与Cookie密切配合维护会话.88
5.2.4SSL证书验证.89
实例5.10捕捉证书验证异常.89
5.2.5使用代理92
实例5.11通过代理访问天猫首页，并输出响应内容92
5.2.6超时92
实例5.12连接超时和读取超时.93
5.2.7身份验证93
实例5.13发送Basic验证请求94
5.2.8将请求打包94
实例5.14封装和发送请求.94
5.3小结95
第三篇解析库
第6章正则表达式99
6.1使用正则表达式99
6.1.1使用match方法匹配字符串.99
实例6.1利用match方法与group方法实现模式匹配99
6.1.2使用search方法在一个字符串中查找模式100
实例6.2使用match方法与search方法进行匹配和搜索100
6.1.3匹配多个字符串101
实例6.3择一匹配符与匹配和搜索.101
6.1.4匹配任何单个字符102
实例6.4点符号的匹配与替换.102
6.1.5使用字符集103
实例6.5字符集和择一匹配符的用法和差别104
6.1.6重复、可选和特殊字符.105
实例6.6各种匹配符号的用法.106
6.1.7分组108
实例6.7在正则表达式中使用分组.108
6.1.8匹配字符串的起始和结尾及单词边界109
实例6.8匹配字符串的起始和结束位置及单词的边界110
6.1.9使用findall函数和finditer函数查找每一次出现的位置111
实例6.9使用findall函数和finditer函数搜索字符串.111
6.1.10用sub函数和subn函数搜索与替换113
实例6.10使用sub函数和subn函数搜索和替换字符串.113
6.1.11使用split函数分隔字符串114
实例6.11使用split函数分隔字符串114
6.2一些常用的正则表达式115
实例6.12使用Email、IP地址和Web地址的正则表达式115
6.3项目实战：抓取小说目录和全文116
实例6.13抓取小说目录爬虫的完整实现118
6.4小结120
第7章lxml与XPath121
7.1lxml基础121
7.1.1安装lxml121
7.1.2操作XML122
实例7.1使用lxml获取XML的节点文本和属性值122
7.1.3操作HTML.124
实例7.2使用lxml获取HTML文档的节点文本和属性值.124
7.2XPath125
7.2.1XPath概述125
7.2.2使用XPath125
实例7.3利用lxml和XPath提取HTML文件中的信息125
7.2.3选取所有节点127
实例7.4使用XPath选取HTML文件中的节点127
7.2.4选取子节点128
10Python爬虫从菜鸟到高手
实例7.5使用XPath根据规则选取节点.129
7.2.5选取父节点129
实例7.6使用XPath选取节点和父节点，并输出class属性值130
7.2.6属性匹配与获取130
实例7.7根据href属性过滤节点130
7.2.7多属性匹配131
实例7.8使用and和or选取节点131
7.2.8按序选择节点132
实例7.9使用XPath和索引获取特定节点132
7.2.9节点轴选择133
实例7.10使用XPath和节点轴选择方法获取特定的节点133
7.2.10在Chrome中自动获得XPath代码.135
实例7.11利用requests库抓取京东商城导航条文本135
7.2.11使用Chrome验证XPath137
7.3项目实战：抓取豆瓣Top250图书榜单138
实例7.12抓取豆瓣Top250图书榜单爬虫完整实现141
7.4项目实战：抓取起点中文网的小说信息142
实例7.13抓取起点中文网小说信息爬虫完整实现144
7.5小结146
第8章BeautifulSoup库.147
8.1BeautifulSoup简介147
8.2BeautifulSoup基础147
8.2.1安装BeautifulSoup147
8.2.2选择解析器148
8.2.3编写**个BeautifulSoup程序149
实例8.1使用BeautifulSoup分析HTML代码.149
8.3节点选择器150
8.3.1选择节点150
实例8.2使用BeautifulSoup节点选择器获取特定节点的信息.151
8.3.2嵌套选择节点152
实例8.3嵌套选择HTML文档中的节点152
8.3.3选择子节点153
实例8.4选取子节点和子孙节点.154
8.3.4选择父节点156
实例8.5获取a节点的父节点.156
8.3.5选择兄弟节点157
实例8.6获取li节点的同级节点158
8.4方法选择器159
8.4.1find_all方法.159
实例8.7使用find_all方法搜索ul节点和li节点.160
实例8.8根据属性值定位节点.161
实例8.9通过节点内容定位文本节点.162
8.4.2find方法.163
实例8.10搜索特定条件的节点.163
8.5CSS选择器.164
8.5.1基本用法164
实例8.11使用CSS选择器查询特定的节点164
8.5.2嵌套选择节点165
实例8.12混合使用CSS选择器和方法选择器搜索特定节点165
8.5.3获取属性值与文本167
实例8.13使用CSS选择器选取特定的a节点167
8.5.4通过浏览器获取CSS选择器代码168
实例8.14使用CSS选择器获取京东上传导航条的链接文本168
8.6实战案例：抓取酷狗网络红歌榜170
实例8.15抓取酷狗网络红歌榜爬虫完整实现171
8.7小结172
第9章pyquery库173
9.1pyquery简介173
9.2pyquery基础173
9.2.1安装pyquery173
9.2.2pyquery的基本用法.174
实例9.1通过3种方式为PyQuery对象传入HTML文档174
9.3CSS选择器.175
实例9.2使用pyquery和CSS选择器分析和提取HTML代码中的信息175
9.4查找节点177
9.4.1查找子节点177
实例9.3使用find方法和children方法查找子节点177
9.4.2查找父节点178
实例9.4使用parent方法和parents方法获取父节点178
9.4.3查找兄弟节点179
实例9.5使用siblings方法查找兄弟节点179
9.4.4获取节点信息180
实例9.6获取节点的各种信息.182
9.5修改节点184
9.5.1添加和移除节点的样式（addClass和removeClass）184
实例9.7修改节点的样式185
12Python爬虫从菜鸟到高手
9.5.2修改节点属性和内容（attr、removeAttr、text和html）.186
实例9.8attr方法、removeAttr方法、text方法和html方法的用法演示187
9.5.3删除节点（remove）188
实例9.9使用remove方法删除节点.189
9.6伪类选择器190
实例9.10伪类选择器用法展示.190
9.7项目实战：抓取当当图书排行榜191
实例9.11分析当当图书搜索页面.194
9.8项目实战：抓取京东商城手机销售排行榜196
实例9.12分析京东商城搜索页面，并将结果保存到Excel文档中.197
9.9小结201
第四篇数据存储
第10章文件存储205
10.1打开文件205
10.2操作文件的基本方法206
10.2.1读文件和写文件207
实例10.1使用不同模式操作文件.207
10.2.2读行和写行208
实例10.2按行读写文本文件.209
10.3使用FileInput对象读取文件210
实例10.3获取文件内容和相关属性.210
10.4处理XML格式的数据211
10.4.1读取与搜索XML文件.211
实例10.4获取XML文件的节点和属性信息211
10.4.2字典转换为XML字符串.212
实例10.5将字典对象转换为格式化的XML文件213
10.4.3XML字符串转换为字典214
实例10.6将XML文件转换为字典对象.214
10.5处理JSON格式的数据.215
10.5.1JSON字符串与字典互相转换.216
实例10.7字典与JSON字符串互相转换216
10.5.2将JSON字符串转换为类实例217
实例10.8将product.json文件转换为Product对象.218
10.5.3将类实例转换为JSON字符串219
实例10.9将Product对象转换为JSON文件.219
10.5.4类实例列表与JSON字符串互相转换219
实例10.10将Product对象列表与JSON文件互相转换.219
10.6将JSON字符串转换为XML字符串220
实例10.11将products.json文件转换为XML文件220
10.7CSV文件存储221
10.7.1写入CSV文件.221
实例10.12将数据写入CSV文件222
10.7.2读取CSV文件.223
实例10.13读取CSV文件中的数据224
10.8小结224
第11章数据库存储.225
11.1SQLite数据库225
11.1.1管理SQLite数据库225
11.1.2用Python操作SQLite数据库.228
实例11.1读写SQLite数据库中的数据228
11.2项目实战：抓取豆瓣音乐排行榜230
实例11.2抓取豆瓣音乐Top250排行榜爬虫完整实现232
11.3项目实战：抓取豆瓣电影排行榜235
实例11.3抓取豆瓣电影Top250排行榜爬虫的完整实现236
11.4小结239
第五篇爬虫高级应用
第12章抓取异步数据.243
12.1异步加载与AJAX243
12.2基本原理243
实例12.1使用jQuery发送请求，并获取数据244
12.3逆向工程246
12.4提取结果249
实例12.2使用requests访问异步请求的URL.249
12.5项目实战：支持搜索功能的图片爬虫250
实例12.3图片爬虫完整实现.253
12.6项目实战：抓取京东图书评价255
实例12.4抓取京东图书评价爬虫完整实现256
12.7小结259
第13章可见即可“爬”：Selenium.260
13.1安装Selenium260
14Python爬虫从菜鸟到高手
13.2安装WebDriver261
13.2.1安装ChromeDriver261
13.2.2安装EdgeWebDriver262
13.2.3安装其他浏览器的WebDriver263
13.3Selenium的基本使用方法264
实例13.1使用Selenium控制浏览器264
13.4查找节点267
13.4.1查找单个节点267
实例13.2使用find_element查找单个节点267
13.4.2查找多个节点269
实例13.3使用find_elements查找多个节点269
13.5节点交互270
实例13.4模拟单击浏览器中的按钮.270
13.6动作链271
实例13.5模拟鼠标移动动作，自动控制京东商城首页271
实例13.6模拟拖拽动作移动节点.273
13.7执行JavaScript代码274
实例13.7动态执行JS代码滚动京东商城首页.274
13.8获取节点信息275
实例13.8使用SeleniumAPI获取京东商城首页HTML中的信息275
13.9管理Cookies.276
实例13.9用SeleniumAPI读写Cookie.276
13.10改变节点的属性值277
实例13.10改变百度搜索按钮的位置.277
实例13.11修改京东商城首页的导航条菜单278
13.11项目实战：抓取QQ空间说说的内容.279
实例13.12抓取QQ空间说说内容爬虫完整代码.279
13.12小结281
第14章基于Splash的爬虫.282
14.1Splash基础.282
14.1.1Splash功能简介.282
14.1.2安装Docker282
14.1.3安装Splash.283
14.2SplashLua脚本285
14.2.1**个Lua脚本285
实例14.1获取京东商城首页的标题.285
14.2.2异步处理286
实例14.2异步访问多个URL，并显示这些URL对应的截图286
14.2.3Splash对象属性.287
14.2.4go方法290
实例14.3发送POST请求，并返回HTML代码和Har图表.291
14.2.5wait方法.292
14.2.6jsfunc方法292
实例14.4调用JavaScript函数获取节点信息292
14.2.7evaljs方法293
14.2.8runjs方法293
14.2.9autoload方法293
实例14.5使用jQuery获取a节点的总数293
14.2.10call_later方法294
实例14.6延迟获取页面截图.294
14.2.11http_get方法296
实例14.7发送HTTPGET请求，并接收返回结果296
14.2.12http_post方法296
实例14.8发送HTTPPOST请求，并接收返回结果.297
14.2.13set_content方法297
14.2.14html方法298
14.2.15png方法299
14.2.16jpeg方法299
14.2.17har方法299
14.2.18其他方法299
14.3使用CSS选择器303
14.3.1select方法303
实例14.9在京东商城首页搜索框中输入关键字303
14.3.2select_all方法304
实例14.10查找京东商城首页HTML代码中的a节点，并返回相关数据304
14.4模拟鼠标键盘动作305
实例14.11模拟单击京东商城首页搜索按钮305
14.5SplashHTTPAPI306
实例14.12返回PNG格式图像并保存.309
14.6项目实战：使用SplashLua抓取京东搜索结果.310
实例14.13抓取京东搜索结果爬虫完整实现代码310
14.7小结312
第15章抓取移动App的数据313
15.1使用Charles313
15.1.1抓取HTTP数据包313
15.1.2安装PC端证书315
15.1.3在手机端安装证书.316
15.1.4监听HTTPS数据包.317
16Python爬虫从菜鸟到高手
15.2使用mitmproxy318
15.2.1安装mitmproxy318
15.2.2在PC端安装mitmproxy证书319
15.2.3在移动端安装mitmproxy证书321
15.2.4mitmproxy的主要功能.322
15.2.5设置手机的代理323
15.2.6用mitmproxy监听App的请求与响应数据324
15.2.7使用mitmproxy编辑请求信息325
15.2.8mitmdump与Python对接327
15.2.9使用mitmweb监听请求与响应331
15.3项目实战：实时抓取“得到”App在线课程.332
实例15.1爬虫完整代码.334
15.4使用Appium在移动端抓取数据337
15.4.1Appium安装与配置337
15.4.2Appium的基本使用方法340
15.4.3使用Python控制手机App344
实例15.2控制微信App.344
15.4.4AppiumPythonClientAPI.345
15.5小结348
第16章多线程和多进程爬虫349
16.1线程与进程349
16.1.1进程349
16.1.2线程349
16.2Python与线程350
16.2.1使用单线程执行程序.350
实例16.1单线程调用函数演示.350
16.2.2使用多线程执行程序.351
实例16.2多线程调用函数演示.351
16.2.3为线程函数传递参数.352
实例16.3为线程函数传递参数.352
16.2.4线程和锁353
实例16.4线程加锁与解锁.353
16.3高级线程模块（threading）354
16.3.1Thread类与线程函数.355
实例16.5使用Thread.join方法等待所有线程执行完毕355
16.3.2Thread类与线程对象.356
实例16.6用Thread对象管理线程356
16.3.3从Thread类继承357
实例16.7通过Thread的子类管理线程357
16.4线程同步359
16.4.1线程锁360
实例16.8使用线程锁让for循环变成原子操作360
16.4.2信号量361
实例16.9创建、获取和释放信号量.362
实例16.10用信号量与线程锁模拟糖果机363
16.5生产者-消费者问题与queue模块.365
实例16.11生产者-消费者模拟器365
16.6多进程367
实例16.12Pool对象与多进程.367
16.7项目实战：抓取豆瓣音乐Top250排行榜（多线程版）368
实例16.13多线程版抓取音乐Top250排行榜爬虫完整实现369
16.8项目实战：抓取豆瓣音乐Top250排行榜（多进程版）371
实例16.14多进程版抓取音乐Top250排行榜爬虫完整实现371
16.9小结373
第17章网络爬虫框架：Scrapy基础374
17.1Scrapy基础知识374
17.1.1Scrapy简介374
17.1.2Scrapy安装375
17.1.3ScrapyShell抓取Web资源.375
17.2用Scrapy编写网络爬虫.378
17.2.1创建和使用Scrapy工程378
实例17.1使用Scrapy创建**个爬虫程序378
17.2.2在PyCharm中使用Scrapy.379
17.2.3在PyCharm中使用扩展工具运行Scrapy程序381
17.2.4使用Scrapy抓取数据，并通过XPath指定解析规则382
实例17.2过滤博文列表.382
17.2.5将抓取到的数据保存为多种格式的文件383
实例17.3通过Item类保存抓取到的数据384
17.2.6使用ItemLoader保存单条抓取的数据385
实例17.4用ItemLoader对象和XPath获取并保存文章相关信息386
17.2.7使用ItemLoader保存多条抓取的数据387
实例17.5保存博客页面中的所有博客数据387
17.2.8抓取多个URL389
实例17.6抓取多个博客页面的内容.389
17.3小结390
18Python爬虫从菜鸟到高手
第18章网络爬虫框架：Scrapy高级技术391
18.1处理登录页面391
实例18.1Scrapy模拟登录.391
18.2处理带隐藏文本框的登录页面.394
实例18.2校验字符串.395
18.3通过API抓取天气预报数据396
实例18.3抓取天气预报数据.397
18.4从CSV格式转换到JSON格式.402
实例18.4抓取京东商城图像信息，并保存这些信息403
18.5下载器中间件406
实例18.5模拟浏览器HTTP请求头的中间件.408
18.6爬虫中间件410
实例18.6使用爬虫中间件设置HTTP请求头，并修改HTTP响应状态码.412
18.7Item管道413
实例18.7使用Item管道抓取美女图片414
18.8通用爬虫422
实例18.8抓取中华网的互联网类新闻内容426
18.9小结430
第19章识别验证码.431
19.1使用OCR技术识别图形验证码.431
19.1.1OCR技术432
19.1.2使用OCR技术前的准备工作.432
19.1.3识别图像中的字符.433
实例19.1使用image_to_text函数识别图像中的字符433
19.1.4识别二值图像中的字符.433
实例19.2使用point函数将彩色图像转换为二值图像，再识别其中的字符434
实例19.3利用NumPy数组将真色彩图像转换为二值图像，并识别其中的字符435
19.1.5识别网站中的验证码.436
实例19.4使用selenium和OCR自动登录网站436
19.2使用OpenCV识别滑动验证码的移动距离.438
19.2.1实现原理438
19.2.2高斯滤波439
实例19.5使用GaussianBlur函数对图像进行高斯滤波处理.439
19.2.3Canny边缘检测.440
实例19.6检测并显示花朵的边缘.441
19.2.4提取轮廓442
19.2.5绘制轮廓442
实例19.7绘制蜘蛛的轮廓.443
19.2.6轮廓面积与周长444
实例19.8检测滑动验证码中滑动和缺口的轮廓444
19.3小结446
第20章综合爬虫项目：可视化爬虫447
20.1项目简介447
20.2主界面设计和实现448
20.3获取商品页数和每页商品数.450
20.4并发抓取商品列表451
20.5数据库操作类453
20.6情感分析456
20.7抓取和分析商品评论数据.456
20.8可视化评论数据458
20.9小结460

展开全部

PYTHON爬虫从菜鸟到高手相关资料

唐佐林 OpenHarmony Python SIG 负责人，Py4OH框架作者《Python爬虫从菜鸟到高手》面向初学者，通过案例驱动的方式逐步带领读者掌握爬虫基础技术，可作为数据挖掘及深度学习技术的前置技术图书使用。李洋蛟龙腾飞CEO/CTO，华为公司HDE，开放原子开源基金会开源大使《Python爬虫从菜鸟到高手》全面系统地讲解了Python爬虫的相关知识，并配有大量插图、代码、视频等内容，具有极强的互动性，循序渐进的结构安排让读者容易动手实践，掌握Python爬虫技术，事半功倍。钟洪发 51CTO学堂金牌讲师《Python爬虫从菜鸟到高手》实践性强，知识体系完整。全书章节编排由浅入深，对初学者友好，同时也适合有基础的同学提升技能，讲解很详细，强烈推荐！夏曹俊捷帝科技公司创始人，华为公司HDE，51CTO学堂金牌讲师《Python爬虫从菜鸟到高手》诠释了Python爬虫的核心开发技术。不管是“菜鸟”，还是“高手”，都可从本书受益。更难能可贵的是，本书提供了大量的实战案例和微课视频，通过各种爬虫的编程演练，快速掌握编程技术。

PYTHON爬虫从菜鸟到高手作者简介

李宁华为HDE（HUAWEI Developer Experts)，UnityMarvel创始人，开放原子基金会银牌讲师，51CTO学堂金牌讲师，IT畅销书作者。从事软件研究和开发超过20年，长期从事编译器、人工智能、Python、JavaScript、Java及跨平台技术的研究和开发工作，曾出版超过40本IT图书。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐