扫一扫
关注中图网
官方微博
本类五星书更多>
-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
数据采集与预处理 版权信息
- ISBN:9787560663562
- 条形码:9787560663562 ; 978-7-5606-6356-2
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 所属分类:>
数据采集与预处理 内容简介
随着国家大数据相关政策、规划的密集出台,大数据、人工智能商业落地速度加快,其在各个领域的应用也越来越广泛,其中面向企业服务、金融、医疗健康、电子政务、电子商务等细分领域的大数据应用展现出巨大的潜力。 大数据是需要新处理模式才能适应的海量、高增长率和多样化的信息资产,被誉为“未来的新石油”,以至于数据的获取、存储、搜索、共享、分析以及可视化呈现都成为当前重要的研究课题。 本书重点讲述数据采集与预处理的相关内容,并以真实案例介绍不同数据源的采集方式及基本的数据预处理方法。全书共10章。其中,第1章为概述,第2~5章介绍静态网页数据爬取,第6章介绍动态网页数据爬取,第7、8章介绍爬虫(Scrapy)框架应用,第9章介绍数据预处理,第10章给出了一个综合项目实训。 本书可作为高校数据科学与大数据技术专业相关课程的教材或教学参考书,也可作为人工智能、大数据领域从业者的自学参考书。
数据采集与预处理 目录
第1章 概述 1
1.1 大数据采集 2
1.1.1 大数据来源 2
1.1.2 大数据采集方式 5
1.1.3 数据预处理 8
1.2 网络爬虫原理和分类 10
1.2.1 爬虫原理 11
1.2.2 爬虫分类 11
1.2.3 常用爬虫工具 12
1.3 网络爬虫法律规范 14
1.3.1 数据隐私保护 14
1.3.2 Robots协议 15
1.3.3 法律法规 16
本章小结 17
本章习题 17
第2章 Python基础 18
2.1 Python环境搭建 18
2.1.1 Python解释器 18
2.1.2 PyCharm的安装 21
2.2 Python基础 22
2.2.1 Python语法基础 22
2.2.2 数据类型 27
2.2.3 程序结构 33
2.2.4 函数 35
2.2.5 面向对象 37
本章小结 41
本章习题 41
第3章 静态网页爬取 42
3.1 HTTP协议概述 42
3.1.1 请求响应模型 43
3.1.2 请求报文 43
3.1.3 响应报文 45
3.2 使用Requests库提取网页数据 46
3.2.1 Requests库的安装 46
3.2.2 Requests库的请求方法 48
3.2.3 使用Requests库发送
GET请求 49
3.2.4 使用Requests库发送
POST请求 51
3.2.5 Requests库的响应对象 51
3.2.6 HTTP状态码 53
3.2.7 定制请求头 53
3.2.8 Requests库发送GET请求的
通用代码 54
3.3 使用urllib库提取网页数据 55
3.3.1 使用urllib库发送GET请求 55
3.3.2 使用urllib库发送POST请求 56
3.3.3 urllib库的用户代理 56
3.4 案例1 QQ表情包图片爬取 57
3.4.1 任务描述 57
3.4.2 任务分析 58
3.4.3 任务实现 58
3.5 案例2 手机号码归属地查询 60
3.5.1 任务描述 60
3.5.2 任务分析 61
3.5.3 任务实现 61
本章小结 62
本章习题 63
第4章 网页解析 64
4.1 使用BeautifulSoup解析网页 64
4.1.1 BeautifulSoup库的安装 65
4.1.2 BeautifulSoup解析器 66
4.1.3 BeautifulSoup快速入门 66
4.1.4 使用BeautifulSoup定位
提取数据 67
4.2 案例1 中国大学排名爬取 73
4.2.1 任务描述 73
4.2.2 任务分析 73
4.2.3 任务实现 74
4.3 案例2 百度新闻爬取 77
4.3.1 任务描述 77
4.3.2 任务分析 77
4.3.3 任务实现 79
4.4 使用lxml解析网页 80
4.4.1 XPath选择器 80
4.4.2 使用标签定位 81
4.4.3 使用属性定位 83
4.5 案例3 酷狗音乐华语新歌榜爬取 83
4.5.1 任务描述 83
4.5.2 任务分析 84
4.5.3 任务实现 85
4.6 案例4 起点中文网原创
风云榜爬取 86
4.6.1 任务描述 86
4.6.2 任务分析 87
4.6.3 任务实现 88
本章小结 90
本章习题 90
第5章 数据存储 91
5.1 文本文件存储 91
5.1.1 将数据存储为TXT文件 92
5.1.2 将数据存储为CSV文件 93
5.1.3 将数据存储为EXCEL文件 94
5.2 数据存储至MySQL 94
5.2.1 MySQL的安装 95
5.2.2 MySQL基本操作 100
5.2.3 PyMySQL的安装 102
5.2.4 PyMySQL使用方法 103
5.2.5 MySQL通用函数封装 105
5.3 案例1 豆瓣图书爬取 106
5.3.1 任务描述 106
5.3.2 任务分析 107
5.3.3 任务实现 108
5.4 案例2 安居客二手房信息爬取 113
5.4.1 任务描述 113
5.4.2 任务分析 113
5.4.3 任务实现 115
本章小结 123
本章习题 123
第6章 动态网页爬取 125
6.1 动态网页概述 125
6.1.1 动态网页的概念 126
6.1.2 动态网页的常用技术 126
6.1.3 动态网页的判定方法 127
6.1.4 动态网页的爬取方法 128
6.2 案例1 新浪博客爬取 130
6.2.1 任务描述 130
6.2.2 任务分析 130
6.2.3 任务实现 133
6.3 案例2 重庆名医榜爬取 136
6.3.1 任务描述 136
6.3.2 任务分析 137
6.3.3 任务实现 137
6.4 使用Selenium爬取动态网页 142
6.4.1 Selenium的安装 142
6.4.2 Selenium的基本使用方法 144
6.4.3 元素选择器 144
6.4.4 操纵元素的方法 146
6.4.5 frame切换/窗口切换 147
6.4.6 等待 149
6.4.7 无界面浏览器模式 150
6.5 案例3 百度首页模拟登录 151
6.5.1 任务描述 151
6.5.2 任务分析 151
6.5.3 任务实现 151
6.6 案例4 QQ邮箱爬取 153
6.6.1 任务描述 153
6.6.2 任务分析 153
6.6.3 任务实现 154
本章小结 159
本章习题 160
第7章 Scrapy框架初探 161
7.1 Scrapy快速入门 161
7.1.1 Scrapy的安装 162
7.1.2 **个Scrapy项目 164
7.1.3 Scrapy目录结构简介 167
7.1.4 Scrapy常用命令行工具 168
7.2 Scrapy架构原理 171
7.3 Scrapy请求发送 172
7.3.1 Scrapy请求发送原理 172
7.3.2 GET请求 174
7.3.3 POST请求 176
7.4 案例1 贝壳网房源信息爬取 178
7.4.1 任务描述 178
7.4.2 任务分析 179
7.4.3 任务实现 179
7.5 案例2 古诗文网唐诗三百首爬取 184
7.5.1 任务描述 184
7.5.2 任务分析 184
7.5.3 任务实现 185
本章小结 189
本章习题 189
第8章 Scrpay框架深入 190
8.1 通用网络爬虫 190
8.1.1 CrawlSpider模板 191
8.1.2 链接提取器和提取规则 191
8.1.3 CrawlSpider工作原理 194
8.2 数据存储 195
8.2.1 存储至MySQL 195
8.2.2 输出为文本 197
8.3 突破反爬虫限制 198
8.3.1 常用的突破反爬虫设置 198
8.3.2 下载器中间件 200
8.3.3 随机用户代理 200
8.3.4 随机IP代理 202
8.3.5 使用Redis实现IP代理 204
8.4 Scrapy动态网页爬取 207
8.4.1 逆向分析法 207
8.4.2 模拟法 208
8.5 案例1 古诗文网全站爬取 211
8.5.1 任务描述 211
8.5.2 任务分析 211
8.5.3 任务实现 213
8.6 案例2 豆瓣网电影排行榜爬取 216
8.6.1 任务描述 216
8.6.2 任务分析 217
8.6.3 任务实现 219
本章小结 223
本章习题 224
第9章 数据预处理 225
9.1 Pandas库与基本数据处理 226
9.1.1 Pandas库的安装 226
9.1.2 Pandas库基本数据结构的使用 227
9.1.3 数据文件的读取与写入 230
9.1.4 数据的拆分与拼接 233
9.2 数据清洗与整理 237
9.2.1 统一数据格式 237
9.2.2 缺失值处理 240
9.2.3 异常值处理 244
9.2.4 数据的合并与去重 245
9.3 案例 房价数据预处理 250
9.3.1 任务描述 250
9.3.2 任务分析 250
9.3.3 任务实现 252
本章小结 262
本章习题 262
第10章 招聘网站数据分析 263
10.1 需求分析 263
10.2 爬虫设计与实现 265
10.2.1 数据存储设计 265
10.2.2 前程无忧招聘网爬虫 268
10.2.3 猎聘网爬虫 273
10.3 数据清洗与可视化 279
10.3.1 招聘热门城市排行 279
10.3.2 招聘岗位占比分布 281
10.3.3 职位薪资分布 282
10.3.4 工作经验与薪资分布 284
10.3.5 大数据开发岗位技能词云 285
本章小结 287
本章习题 287
参考文献 288
展开全部
书友推荐
- >
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
¥9.7¥14.0 - >
姑妈的宝刀
姑妈的宝刀
¥9.0¥30.0 - >
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
¥6.9¥16.0 - >
自卑与超越
自卑与超越
¥13.5¥39.8 - >
随园食单
随园食单
¥21.6¥48.0 - >
推拿
推拿
¥12.2¥32.0 - >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥17.4¥58.0 - >
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
¥9.3¥19.0
本类畅销
-
Photoshop 2022中文版案例教程
¥44.1¥59.8 -
局域网组建、管理与维护(第4版)(微课版)
¥47¥59 -
园林AUTOCAD教程
¥24¥45 -
Python实战编程:从零学Python
¥81¥108 -
Java程序设计基础
¥37¥50 -
数据备份与恢复
¥51.4¥69