数据采集及预处理基础与应用 版权信息
- ISBN:9787115635259
- 条形码:9787115635259 ; 978-7-115-63525-9
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
数据采集及预处理基础与应用 本书特色
1.本书是《大数据》编委会针对校企合作的精心力作。
2.本书凝结了曙光瑞翼多年的教学经验,能够满足校企融合教学的需求。
3.本书旨在介绍大数据预处理技术的基础知识,为即将学习大数据技术的读者奠定基础。
4.本书采用任务驱动的编写方式,读者可以直接进行实验效果体验,并进行自由调整。
5.本书采用大量的实践案例,结合行业典型应用,编写行业实践。
6.本书提供丰富的教学资源,包括电子课件、实验设计等。
数据采集及预处理基础与应用 内容简介
本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。 本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关业课程的教材,也适合作为数据处理行业从业人员的参考用书。
数据采集及预处理基础与应用 目录
第 1章 Scrapy电影数据采集 1
任务1.1 数据采集 1
1.1.1 数据采集概述 1
1.1.2 数据采集方法 1
1.1.3 数据采集应用 3
任务1.2 网络爬虫 4
1.2.1 网络爬虫概述 4
1.2.2 常用网络爬虫方法 4
1.2.3 常用网络爬虫工具 5
任务1.3 网络爬虫实战 6
1.3.1 获取网页 7
1.3.2 解析网页 9
1.3.3 应对反爬机制 11
本章题 12
第 2章 数据预处理环境安装 13
任务2.1 数据预处理出现的背景及其目的 13
2.1.1 数据预处理出现的背景 13
2.1.2 数据预处理的目的 14
任务2.2 数据预处理的流程 15
2.2.1 数据清洗 15
2.2.2 数据集成 17
2.2.3 数据归约 18
2.2.4 数据变换与数据离散化 23
2.3.5 数据预处理的注意事项 26
任务2.3 数据预处理的工具 26
2.3.1 Python预处理环境安装 27
2.3.2 Kettle的下载安装与Spoon的启动 30
本章题 34
第3章 Kettle的初步使用 35
任务3.1 Kettle的点 36
任务3.2 Kettle的使用 36
3.2.1 转换的基本概念 36
3.2.2 第 一个转换案例 39
本章题 53
第4章 基于Kettle的客户信息数据预处理 54
任务4.1 客户信息数据抽取 54
4.1.1 从文本文件读入性别参照数据 54
4.1.2 从Excel文件读入客户信息数据 56
4.1.3 从MySQL数据库读取城市区号参照数据 60
任务4.2 客户信息数据清洗 65
4.2.1 数据排序 65
4.2.2 去除重复数据 66
4.2.3 处理缺失值 73
4.2.4 字段清洗 75
4.2.5 字符串清洗 78
4.2.6 处理异常数据 82
任务4.3 将客户信息数据加载MySQL数据库 88
本章题 91
第5章 基于pandas的学生信息预处理 92
任务5.1 pandas详解 92
5.1.1 pandas的数据结构及基本功能 92
5.1.2 数据加载与存储 130
任务5.2 学生信息预处理 141
5.2.1 数据读取及查看 141
5.2.2 索引对象 144
5.2.3 数据排序 145
本章题 148
第6章 使用Python对运动员信息进行预处理 149
任务6.1 数据清洗 149
6.1.1 处理缺失数据 149
6.1.2 字符串 作 156
6.1.3 中国篮球运动员的基本信息清洗 163
任务6.2 数据集成 168
6.2.1 数据合并的常用方法 168
6.2.2 中国篮球运动员的基本信息合并 182
任务6.3 数据规约 183
6.3.1 数据规约方法 183
6.3.2 中国篮球运动员的基本信息规约 184
任务6.4 数据变换 185
6.4.1 数据变换常用方法 185
6.4.2 中国篮球运动员的基本信息数据变换 203
本章题 206
第7章 使用Python对电影人气进行预测(构建征工程) 207
任务7.1 征工程简介 207
7.1.1 征工程的重要性 207
7.1.2 征工程是什么 208
7.1.3 征工程的评估 208
任务7.2 电影人气预测 210
7.2.1 scikit-learn简介 210
7.2.2 征变换 211
7.2.3 征选择 222
7.2.4 电影人气预测征工程 237
本章题 255
第8章 基于Python的销售数据仓库应用案例 256
任务8.1 数据仓库简介 256
8.1.1 数据仓库出现的背景及其点 256
8.1.2 数据仓库的功能 257
8.1.3 数据仓库与数据库的区别 258
任务8.2 数据仓库模型 259
8.2.1 事实表和维度表 259
8.2.2 数据模型的分类 260
8.2.3 建模段划分 260
8.2.4 常用建模方法 261
8.2.5 星形模型和雪花模型 262
任务8.3 数据仓库案例 264
8.3.1 案例目的 264
8.3.2 案例背景 265
8.3.3 案例原理 265
8.3.4 案例环境 265
8.3.5 案例步骤 265
8.3.6 案例总结 273
本章题 273
第9章 Python数据分析师岗位分析 274
任务9.1 了解项目背景与目标 274
任务9.2 读取与清洗数据分析师岗位数据 275
9.2.1 分析目标与思路 275
9.2.2 数据收集 276
9.2.3 数据预处理 278
任务9.3 数据分析与可视化 281
9.3.1 数据分析师岗位的需求趋势 281
9.3.2 数据分析师岗位的热门城市Top10 283
9.3.3 不同城市数据分析师岗位的薪资水平 284
9.3.4 数据分析师岗位的学历要求 286
任务9.4 总结 287
本章题 287
展开全部
数据采集及预处理基础与应用 作者简介
许桂秋,主要研究方向大数据和人工智能,已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。