超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

不再提示
关闭
图书盲袋,以书为“药”
欢迎光临中图网 请 | 注册
> >>
大数据分析处理(慕课版)

大数据分析处理(慕课版)

出版社:人民邮电出版社出版时间:2024-02-01
开本: 16开 页数: 274
本类榜单:教材销量榜
中 图 价:¥49.6(7.1折) 定价  ¥69.8 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

大数据分析处理(慕课版) 版权信息

大数据分析处理(慕课版) 本书特色

1.信息类名校常州信息职业技术学院团队打造

2.岗课赛证,融入“1 X”证书职业技能等级标准

3.单元任务式写法,符合职教认知规律

4.教材编写融入思政元素

5.校企“双元”合作开发新形态教材

大数据分析处理(慕课版) 内容简介

本书采用理论知识与任务案例相结合的形式,以PyCharm为主要开发工具,系统地阐述了大数据分析处理工作流程中的重要步骤,介绍了大数据分析过程中常用的几种第三方库。本书共13个单元,第1单元介绍了大数据分析处理的概念;第2、3单元介绍了大数据分析中科学计算与统计分析的相关知识;第4-7单元介绍了使用Pandas实现数据预处理的方法;第8单元介绍了使用Scikit-learn实现简单的机器学习的方法;第9单元介绍了使用Matplotlib、Seaborn绘制图表的方法;第10-13单元分别介绍了4个大数据分析处理的综合案例。单元1-9中,每个单元都包含了相关知识部分和任务实现部分,任务实现部分一般包含多个任务的具体实现过程,每个任务后面都有课堂实践,通过完成实践操作,读者可以进一步巩固所学知识。 本书既可作为高等院校大数据技术专业的教材,也可作为大数据爱好者的自学书籍。

大数据分析处理(慕课版) 目录

目录

单元1 大数据分析概述 1

 学习目标 1

 相关知识 1

1. 大数据分析的概念 1

2. 大数据分析的产生与发展过程 2

3. 大数据分析的应用场景 3

4. 大数据分析流程 4

5. 传统的分析统计工具 9

6. 大数据处理编程语言 9

7. 大数据分析实用工具 10

 任务实现 11

任务1.1根据业务需求选择合适的大数据分析技术 11

1.1.1 业务需求分析 11

1.1.2 选择大数据分析技术 12

任务1.2 使用 pip和Pycharm完成 Python包的管理 13

1.2.1 了解Python常用库 13

1.2.2 使用pip命令安装、卸载Python包 14

1.2.3 使用Pycharm平台安装、卸载Python包 16

 思政园地 19

 单元小结 20

 课后习题 20



单元2 NumPy科学计算基础 22

 学习目标 22

 相关知识 22

1.NumPy与ndarray对象 22

2.创建ndarray数组的函数 23

3.ndarray对象的数据类型 23

4.数组的矢量化运算 24

5.广播机制 25

6.数组与标量的运算 26

7.NumPy通用函数 26

8.NumPy的统计与排序方法 27

9.NumPy的numpy.linalg模块 29

 任务实现 29

任务2.1 保存考试成绩—创建一个数组 29

2.1.1 使用函数创建数组 29

2.1.2 掌握随机数模块的使用 32

任务2.2 查看考试成绩数据类型—查看数组的数据类型 35

2.2.1 查看数据类型 35

2.2.2 实现数据类型转换 36

任务2.3 对两门课成绩进行相加—实现数组运算 37

2.3.1 实现矢量化运算 37

2.3.2 实现数组广播 38

2.3.3 实现数组与标量间的运算 39

任务2.4 对考试成绩进行计算—使用NumPy通用函数实现数组计算 39

2.4.1 一元通用函数的使用 40

2.4.2 二元通用函数的使用 40

任务2.5对考试成绩进行统计排序—利用NumPy数组进行数据处理 42

2.5.1 变换数组的形态 42

2.5.2 实现数组统计 44

2.5.3 实现数组排序 47

任务2.6 对多门课成绩进行计算—使用NumPy的线性代数模块处理矩阵 49

2.6.1 计算对角线元素和 49

2.6.2 实现矩阵乘法 49

 思政园地 50

 单元小结 51

 课后习题 51

单元3 Pandas统计分析基础 53

 学习目标 53

 相关知识 53

1. Pandas与Pandas的数据类型 53

2.创建Series和DataFrame的函数 55

3.索引与切片 56

4.排序算法与实现排序的方法 56

5.统计学与实现统计的方法 56

 任务实现 57

任务3.1 用不同方式创建系列——创建Series 57

3.1.1 创建一个空的Series 57

3.1.2 使用ndarray对象创建一个Series 58

3.1.3 使用字典创建一个Series 58

3.1.4 使用标量创建一个Series 59

任务3.2 用不同方式创建数据帧——创建DataFrame 59

3.2.1 使用字典创建数据帧 59

3.2.2 使用csv文件创建DataFrame 62

3.2.3 在DataFrame中插入列和行 63

任务3.3 访问和提取随机数据——使用DataFrame进行索引与切片 65

3.3.1 使用索引访问数据 65

3.3.2 使用切片提取部分数据 66

任务3.4 对学生数据进行排序—实现数据排序 67

3.4.1 使用sort、sort_index、sort_values实现数据排序 67

3.4.2 控制排序顺序 69

3.4.3 设置排序算法 71

任务3.5 进行随机数据统计—实现数据统计 72

3.5.1 使用Pandas的统计方法进行统计 72

3.5.2 使用describe方法描述数据 76

 思政园地 77

 单元小结 77

 课后习题 78



目录

单元4 数据加载与存储 80

 学习目标 80

 相关知识 80

1. 常用的数据文件类型 80

2.文本文件读取和写入 81

3.Excel文件读取和写入 83

4. 数据库文件读取和写入 85

 任务实现 88

任务4.1 读取并存储城市经纬度数据-txt文件读写 88

4.1.1 读取txt文件中数据 89

4.1.2 将数据写入txt文件 91

任务4.2 读取并存储招聘数据-csv文件的读写 92

4.2.1 读取csv文件数据 93

4.2.2 将数据写入csv文件 94

任务4.3 读取并存储用户数据-Excel文件的读写 96

4.3.1 读取Excel文件工作表数据 96

4.3.2 将数据写入Excel文件的工作表中 96

任务4.4 读取商品类别数据并存储账户数据-MySQL数据库读写 96

4.4.1 连接MySQL数据库 96

4.4.2 从MySQL数据库读取数据 96

4.4.3 存储数据到MySQL数据库 96

 思政园地 96

 单元小结 96

 课后习题 96



目录

单元5 数据质量与数据清洗 110

 学习目标 110

 相关知识 110

1.企业数据管理现状 110

2.数据标准 111

3.数据质量的定义 111

4.常用的数据质量检测手段 113

5.数据质量管理的必要性 113

6. 缺失值 114

7. 重复值 115

8. 异常值 117

 任务实现 120

任务5.1 医药销售数据遗漏检查-缺失值处理 120

5.1.1 发现缺失值 121

5.1.2 处理缺失值 123

任务5.2 医药销售数据去重校验-重复值处理 125

5.2.1 重复值判断和查看 125

5.2.2 处理记录重复值 126

5.2.3 处理特征重复值 127

任务5.3 医药销售数据异常值排除-异常值处理 130

5.3.1 异常值识别 131

5.3.2 异常值处理 132

 思政园地 133

 单元小结 133

 课后习题 134



单元6 数据合并与转换 136

 学习目标 136

 相关知识 136

1.concat()函数 136

2.append()方法 138

3.merge()函数 138

4.join()方法 141

5.combine_first()方法 142

6.map()方法 143

7.cut()函数 143

8.qcut()函数 144

 任务实现 145

任务6.1 堆叠学生信息和考试成绩数据—实现数据堆叠 145

6.1.1 实现数据横向堆叠 145

6.1.2 实现数据纵向堆叠 146

任务6.2 连接学生信息和考试成绩数据—实现数据连接 148

6.2.1 使用merge()函数实现数据连接 148

6.2.2 使用join()方法实现数据连接 150

6.2.3 使用combine_first()方法重叠合并数据 151

任务6.3 对学生考试成绩进行等级转换—实现数据映射转换 152

6.3.1 使用自定义函数映射转换数据 152

6.3.2 使用字典映射转换数据 153

6.3.3 使用lambda表达式映射转换数据 154

任务6.4 对学生考试成绩进行离散化—实现数据离散化 155

6.4.1 实现数据等宽离散化 155

6.4.2 实现数据等频离散化 156

 思政园地 157

 单元小结 157

 课后习题 158



单元7 数据分组与聚合 160

 学习目标 160

 相关知识 160

1.数据分组的概念 160

2.GroupBy机制 161

3.数据分组的原则和依据 161

4.数据分组的方法与体系 162

5.数据聚合的概念 163

6. agg和aggregate函数 163

7. apply函数 163

8. transform函数 163

 任务实现 164

任务7.1 简单数据表处理-数据分组 164

7.1.1 数据分组方法 164

7.1.2 实现Pandas 数据分组 166

任务7.2 人员得分表处理-数据聚合 172

7.2.1 实现agg聚合 172

7.2.2 实现apply聚合 175

7.2.3 实现transform聚合 179

 思政园地 181

 单元小结 182

 课后习题 182

单元8 Scikit-learn机器学习 184

 学习目标 184

 相关知识 184

1.机器学习的概念 184

2.机器学习的基本术语 185

3.机器学习的分类与应用 185

4.假设空间 185

5.归纳偏好 186

6.Sklearn 187

7.划分数据集函数 188

8.preprocessing模块 189

9.标准化和归一化 190

10.降维 190

11.线性回归 191

12.逻辑回归 192

13.K-means算法 194

14.朴素贝叶斯 195

15.支持向量机算法 198

 任务实现 201

任务8.1 使用sklearn处理iris数据集—使用sklearn处理数据 201

8.1.1 导入数据集 201

8.1.2 划分训练集和测试集 202

任务8.2 boston数据集预处理和降维—数据集预处理 202

8.2.1 实现数据标准化 202

8.2.2 实现数据归一化 202

8.2.3 实现PCA降维 202

任务8.3 构建并评价boston回归模型—回归模型分析与预测 202

8.3.1 实现线性回归 202

8.3.2 实现支持向量机算法 202

任务8.4 构建并评价iris分类模型—分类模型分析与预测 202

8.4.1 实现逻辑回归分类 202

8.4.2 实现朴素贝叶斯算法 202

任务8.5 构建并评价iris聚类模型—聚类模型分析与评价 202

8.5.1 实现K-means算法 202

8.5.2 评价K-means算法 202

 思政园地 202

 单元小结 202

 课后习题 202

单元9 使用统计图表展示数据 225

 学习目标 225

 相关知识 225

1. 数据可视化的概念 225

2. 数据可视化设计过程 226

3. 基本图表类型及使用场景 227

4. pyplot基础语法 229

5. rc参数 230

6. 绘制线图的函数plot 231

7. 绘制柱状图的函数bar 232

8. 绘制直方图的函数hist 232

9. 绘制饼图的函数pie 233

10. 绘制散点图的函数scatter 233

11. 子图的概念 234

12. Seaborn 235

 任务实现 236

任务9.1 使用线图展示水果销量变化曲线—掌握matplotlib基础语法 236

9.1.1 掌握pyplot基础语法 236

9.1.2 设置pyplot的动态rc参数 237

任务9.2 使用常用图表展示多个品牌汽车销售额—绘制常见图表 239

9.2.1 绘制线图 239

9.2.2 绘制柱状图 241

9.2.3 绘制直方图 243

9.2.4 绘制饼图 244

9.2.5 绘制散点图 246

任务9.3 使用子图展示就业率数据—创建子图 248

9.3.1数据分析与子图设计 249

9.3.2 实现子图的创建 250

任务9.4 使用Seaborn展示汽车数据的分布与相关性—使用Seaborn绘制图表 252

9.4.1 使用Seaborn绘制直方图 252

9.4.2 使用Seaborn绘制热力图 253

 思政园地 255

 单元小结 256

 课后习题 256

单元10 某地区电力公司用户付费行为预测 258

任务10.1 案例背景概述 258

10.1.1项目目标 258

10.1.2相关背景业务知识 258

10.1.3数据采集和理解 258

任务10.2 电力数据预处理 259

10.2.1按账户和日期排序 260

10.2.2统计每个账户每个月各种账户活动发生的数量 261

10.2.3计算当月月底的账户余额 262

10.2.4计算当月月底账户余额,按下月10日前计算的账户余额 263

10.2.5计算每个账户每个月的用电量和缴费量 264

10.2.6合并整理为新的用户缴费明细和用电量明细表 265

10.2.7数据中空值的处理 265

任务10.3 模型建立与评估 265

10.3.1数据特征的转换 265

10.3.2逻辑回归模型建立与评估 265

10.3.3支持向量机模型建立与评估 265

单元11 《你好,旧时光》文本挖掘分析 275

任务11.1 案例背景概述 275

11.1.1项目目标 275

11.1.2相关背景知识 275

11.1.3实验准备 276

任务11.2 文本数据准备与处理 277

11.2.1读入数据与基本处理 277

11.2.2创建停用词 277

11.2.3找出章节的头部索引和尾部索引 277

11.2.4 绘制章节段数与字数折线图 278

任务11.3 文本分词与词云绘制 278

11.3.1全文分词 278

11.3.2统计词频与长度 279

11.3.3绘制高频词图 279

11.3.4词云绘制 280

任务11.4 关系网络探索 280

11.4.1 计算段落权重 280

11.4.2 绘制人物关系图 282

任务11.5 聚类分析 283

11.5.1计算tf-idf得到词向量矩阵 283

11.5.2获得所有特征项 284

11.5.3 k均值聚类 284

11.5.4 聚类结果可视化 285

11.5.5 层次聚类 285

单元12 基于大数据可视化的城市通勤特征分析研究 287

任务12.1 案例背景概述 287

12.1.1项目目标 287

12.1.2相关背景知识 287

任务12.2 原始数据预处理 287

12.2.1数据的载入 288

12.2.2站点信息处理 289

12.2.3地铁刷卡记录处理 290

12.2.4 合并通勤记录 291

12.2.5 虚拟换乘站点数据合并 292

任务12.3 词云图的绘制 295

12.3.1载入数据 295

12.3.2 设置文字云图各项参数 296

12.3.3 绘制词云图 296

任务12.4 绘制起终点分布连线图 296

12.4.1 载入数据 296

12.4.2 统计频数并筛选 296

12.4.3 完成绘图 296

任务12.5 绘制早高峰地铁刷卡进出站分布图 296

12.5.1载入数据 296

12.5.2统计出入站的频次 296

12.5.3设置图形选项参数并画图 296

任务12.6职住地识别与城市规划对比分析 296

12.6.1载入数据 296

12.6.2统计居住地和工作地的出入站频次 296

12.6.3进行区域中心分析 296

任务13.1 案例背景概述 312

13.1.1项目目标 312

13.1.2相关背景知识 312

任务13.2 网络数据爬取 312

13.2.1查看要爬取的网页结构 312

13.2.2提取此网页中的新闻标题 313

任务13.3 中文文本处理 314

13.3.1中文分词 315

13.3.2将分词后得到的词组转换为向量 316

任务13.4 机器学习做情感分析 318

13.4.1 样本拆分 318

13.4.2 模型训练与评价 318

任务13.5 作词云图 321

13.5.1载入数据 321

13.5.2分词 321

13.5.3绘制词云图 322





展开全部

大数据分析处理(慕课版) 作者简介

永洪 常州信息职业技术学院大数据技术专业负责人,具有丰富大数据技术专业相关教学和科研工作经验,为国家级教学团队成员、国家级职业教育教师教学创新团队成员、江苏省高校“青蓝工程”优秀青年骨干教师、江苏省优秀毕业设计团队指导老师;参与国家精品资源共享课、国家在线开放课、软件技术专业国家教学资源库、省在线开放课程等建设;获江苏省教学成果一等奖一项、二等奖一项。主要讲授大数据分析处理、数据库管理与应用、C#应用开发、UML建模与设计模式、Web前端开发等课程;参与编写国家规划教材《软件开发与项目管理》、《信息技术基础》,主编高职高专规划教材《XML案例教材》,主编常州信息职业技术学院精品教材《.NET Web应用开发》。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
返回顶部
中图网
在线客服