扫一扫
关注中图网
官方微博
本类五星书更多>
-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
数据采集及预处理基础与应用 版权信息
- ISBN:9787115635259
- 条形码:9787115635259 ; 978-7-115-63525-9
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
数据采集及预处理基础与应用 内容简介
本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。 本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关业课程的教材,也适合作为数据处理行业从业人员的参考用书。
数据采集及预处理基础与应用 目录
第 1章 Scrapy电影数据采集 1
任务1.1 数据采集 1
1.1.1 数据采集概述 1
1.1.2 数据采集方法 1
1.1.3 数据采集应用 3
任务1.2 网络爬虫 4
1.2.1 网络爬虫概述 4
1.2.2 常用网络爬虫方法 4
1.2.3 常用网络爬虫工具 5
任务1.3 网络爬虫实战 6
1.3.1 获取网页 7
1.3.2 解析网页 9
1.3.3 应对反爬机制 11
本章题 12
第 2章 数据预处理环境安装 13
任务2.1 数据预处理出现的背景及其目的 13
2.1.1 数据预处理出现的背景 13
2.1.2 数据预处理的目的 14
任务2.2 数据预处理的流程 15
2.2.1 数据清洗 15
2.2.2 数据集成 17
2.2.3 数据归约 18
2.2.4 数据变换与数据离散化 23
2.3.5 数据预处理的注意事项 26
任务2.3 数据预处理的工具 26
2.3.1 Python预处理环境安装 27
2.3.2 Kettle的下载安装与Spoon的启动 30
本章题 34
第3章 Kettle的初步使用 35
任务3.1 Kettle的点 36
任务3.2 Kettle的使用 36
3.2.1 转换的基本概念 36
3.2.2 第 一个转换案例 39
本章题 53
第4章 基于Kettle的客户信息数据预处理 54
任务4.1 客户信息数据抽取 54
4.1.1 从文本文件读入性别参照数据 54
4.1.2 从Excel文件读入客户信息数据 56
4.1.3 从MySQL数据库读取城市区号参照数据 60
任务4.2 客户信息数据清洗 65
4.2.1 数据排序 65
4.2.2 去除重复数据 66
4.2.3 处理缺失值 73
4.2.4 字段清洗 75
4.2.5 字符串清洗 78
4.2.6 处理异常数据 82
任务4.3 将客户信息数据加载MySQL数据库 88
本章题 91
第5章 基于pandas的学生信息预处理 92
任务5.1 pandas详解 92
5.1.1 pandas的数据结构及基本功能 92
5.1.2 数据加载与存储 130
任务5.2 学生信息预处理 141
5.2.1 数据读取及查看 141
5.2.2 索引对象 144
5.2.3 数据排序 145
本章题 148
第6章 使用Python对运动员信息进行预处理 149
任务6.1 数据清洗 149
6.1.1 处理缺失数据 149
6.1.2 字符串 作 156
6.1.3 中国篮球运动员的基本信息清洗 163
任务6.2 数据集成 168
6.2.1 数据合并的常用方法 168
6.2.2 中国篮球运动员的基本信息合并 182
任务6.3 数据规约 183
6.3.1 数据规约方法 183
6.3.2 中国篮球运动员的基本信息规约 184
任务6.4 数据变换 185
6.4.1 数据变换常用方法 185
6.4.2 中国篮球运动员的基本信息数据变换 203
本章题 206
第7章 使用Python对电影人气进行预测(构建征工程) 207
任务7.1 征工程简介 207
7.1.1 征工程的重要性 207
7.1.2 征工程是什么 208
7.1.3 征工程的评估 208
任务7.2 电影人气预测 210
7.2.1 scikit-learn简介 210
7.2.2 征变换 211
7.2.3 征选择 222
7.2.4 电影人气预测征工程 237
本章题 255
第8章 基于Python的销售数据仓库应用案例 256
任务8.1 数据仓库简介 256
8.1.1 数据仓库出现的背景及其点 256
8.1.2 数据仓库的功能 257
8.1.3 数据仓库与数据库的区别 258
任务8.2 数据仓库模型 259
8.2.1 事实表和维度表 259
8.2.2 数据模型的分类 260
8.2.3 建模段划分 260
8.2.4 常用建模方法 261
8.2.5 星形模型和雪花模型 262
任务8.3 数据仓库案例 264
8.3.1 案例目的 264
8.3.2 案例背景 265
8.3.3 案例原理 265
8.3.4 案例环境 265
8.3.5 案例步骤 265
8.3.6 案例总结 273
本章题 273
第9章 Python数据分析师岗位分析 274
任务9.1 了解项目背景与目标 274
任务9.2 读取与清洗数据分析师岗位数据 275
9.2.1 分析目标与思路 275
9.2.2 数据收集 276
9.2.3 数据预处理 278
任务9.3 数据分析与可视化 281
9.3.1 数据分析师岗位的需求趋势 281
9.3.2 数据分析师岗位的热门城市Top10 283
9.3.3 不同城市数据分析师岗位的薪资水平 284
9.3.4 数据分析师岗位的学历要求 286
任务9.4 总结 287
本章题 287
展开全部
书友推荐
- >
名家带你读鲁迅:朝花夕拾
名家带你读鲁迅:朝花夕拾
¥10.5¥21.0 - >
自卑与超越
自卑与超越
¥13.5¥39.8 - >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥24.9¥58.0 - >
诗经-先民的歌唱
诗经-先民的歌唱
¥15.1¥39.8 - >
龙榆生:词曲概论/大家小书
龙榆生:词曲概论/大家小书
¥9.1¥24.0 - >
人文阅读与收藏·良友文学丛书:一天的工作
人文阅读与收藏·良友文学丛书:一天的工作
¥15.1¥45.8 - >
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
¥6.3¥14.0 - >
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
¥6.9¥16.0
本类畅销
-
”互联网+“时代计算机算法的应用及其实践研究
¥19.9¥59 -
微服务设计
¥52.8¥69 -
图说深度学习:用可视化方法理解复杂概念
¥109¥188 -
计算机基础
¥17.2¥31 -
改变未来的九大算法
¥50¥68 -
生成式AI入门与AWS实战
¥77.8¥99.8