扫一扫
关注中图网
官方微博
本类五星书更多>
-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
Spark大数据技术应用实践 版权信息
- ISBN:9787303248704
- 条形码:9787303248704 ; 978-7-303-24870-4
- 装帧:暂无
- 册数:暂无
- 重量:暂无
- 所属分类:>
Spark大数据技术应用实践 内容简介
本书分为基础篇和提高篇两部分, 共7章, 主要内容包括: Spark初识、Spark核心概念、Spark架构与执行流程、Spark流式计算、Spark SQL、Spark与机器学习、案例分析。
Spark大数据技术应用实践 目录
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用Spark-Shell 86
5.4.3 使用Spark-SQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 K-Means算法原理与使用 122
6.10.1 K-Means算法原理 122
6.10.2 Spark的K-Means算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用Spark-Shell 86
5.4.3 使用Spark-SQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 K-Means算法原理与使用 122
6.10.1 K-Means算法原理 122
6.10.2 Spark的K-Means算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用Spark-Shell 86
5.4.3 使用Spark-SQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 K-Means算法原理与使用 122
6.10.1 K-Means算法原理 122
6.10.2 Spark的K-Means算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
展开全部
Spark大数据技术应用实践 作者简介
饶泓,女,1973年生,博士,南昌大学教授,现任南昌大学信息工程学院副院长,博士生导师,中国计算机学会会员。2004.1-2004.6公派访学美国伊利诺伊州立大学,2012.7-2015.5赴美国堪萨斯大学访学。主要研究方向为机器学习、数据挖掘、大数据处理算法及其应用。
书友推荐
- >
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
¥17.6¥55.0 - >
李白与唐代文化
李白与唐代文化
¥12.5¥29.8 - >
月亮与六便士
月亮与六便士
¥18.1¥42.0 - >
大红狗在马戏团-大红狗克里弗-助人
大红狗在马戏团-大红狗克里弗-助人
¥3.5¥10.0 - >
月亮虎
月亮虎
¥20.2¥48.0 - >
二体千字文
二体千字文
¥21.6¥40.0 - >
莉莉和章鱼
莉莉和章鱼
¥19.7¥42.0 - >
经典常谈
经典常谈
¥16.3¥39.8
本类畅销
-
Photoshop 2022中文版案例教程
¥44.1¥59.8 -
局域网组建、管理与维护(第4版)(微课版)
¥47¥59 -
园林AUTOCAD教程
¥24¥45 -
Python实战编程:从零学Python
¥81¥108 -
Java程序设计基础
¥37¥50 -
数据备份与恢复
¥51.4¥69
浏览历史
良将 : 一将功成万骨枯
¥10.8¥25.0