欢迎光临中图网 请 | 注册
> >
Spark大数据技术应用实践

Spark大数据技术应用实践

出版社:北京师范大学出版社出版时间:2019-12-01
开本: 26cm 页数: 195页
中 图 价:¥23.0(7.0折) 定价  ¥32.8 登录后可看到会员价
暂时缺货 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

Spark大数据技术应用实践 版权信息

  • ISBN:9787303248704
  • 条形码:9787303248704 ; 978-7-303-24870-4
  • 装帧:暂无
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

Spark大数据技术应用实践 内容简介

本书分为基础篇和提高篇两部分, 共7章, 主要内容包括: Spark初识、Spark核心概念、Spark架构与执行流程、Spark流式计算、Spark SQL、Spark与机器学习、案例分析。

Spark大数据技术应用实践 目录

前 言 2 序 3 目录 4 第1章 Spark初识 9 1.1 Spark简介 9 1.2 Spark体系架构 9 1.2.1 Spark SQL 10 1.2.2 Spark Streaming 10 1.2.3 MLlib机器学习 11 1.2.4 GraphX 12 1.3 Spark的安装与配置 12 1.3.1 安装Spark 12 1.3.2 使用Spark Shell 14 1.3.3 Spark的简单使用 16 1.4 Spark 运行模式 19 1.4.1 Local模式 19 1.4.2 Standalone模式 20 1.4.3 Spark On Mesos 20 1.4.4 Spark On YARN 20 1.4.5 Spark On Cloud 21 本章习题 21 第2章 Spark核心概念 23 2.1 RDD简介 23 2.1.1 RDD概念 23 2.1.2 RDD运行原理 23 2.1.3 RDD操作 26 2.1.4 RDD容错与持久化 29 2.2 RDD的依赖关系 30 2.2.1 窄依赖 30 2.2.2 宽依赖 31 2.3 RDD共享变量 33 2.3.1 Broadcast广播变量 33 2.3.2 Accumulator累加器 35 2.4 Spark优化 36 2.4.1 开发调优 36 2.4.2 资源调优 36 2.4.3 数据倾斜调优和Shuffle调优 39 2.4.4 重复利用RDD并使用缓存 40 2.4.5 Spark参数调优 41 本章习题 42 第3章 Spark架构与执行流程 44 3.1 Spark架构与运行 44 3.2 Spark核心组件 46 3.2.1 Scheduler(调度) 46 3.2.2 RDD(弹性分布式数据集) 48 3.2.3 Storage(存储) 49 3.2.4 Shuffle(洗牌) 49 3.3 Spark程序执行基本流程 50 3.3.1 运行流程 50 本章习题 52 第4章 Spark流式计算 53 4.1 Spark Streaming简介 53 4.1.1 流式计算和批处理的关系 53 4.1.2 主流的流式计算框架 53 4.2 Spark Streaming架构 54 4.2.1 Spark Streaming运行原理 54 4.2.2 Spark Streaming组件 55 4.2.3 Spark Streaming应用场景及优点 56 4.3 Spark streaming编程 58 4.3.1 自定义数据源Receiver 58 4.3.2 API的使用 60 4.4 Flume、Kafka和Spark Streaming结合使用 64 4.4.1 Flume和Kafka安装 64 4.4.2 Kafka、Flume和Spark编程 69 本章习题 72 第5章 Spark SQL 74 5.1 Spark SQL介绍 74 5.1.1 Spark SQL的使用入门 74 5.1.2 DataFrame相关操作 74 5.1.3 Spark SQL 2.0介绍 75 5.2 Spark SQL架构 76 5.2.1 Spark SQL组件 76 5.2.2 Spark SQL运行原理 76 5.3 DataFrame 77 5.3.1 DataFrame相关操作 77 5.3.2 运行SQL操作不同数据源 81 5.3.3 RDD、DataFrame和DataSet 84 5.4 Spark SQL的Shell 85 5.4.1 Spark SQL实验环境配置 85 5.4.2 使用Spark-Shell 86 5.4.3 使用Spark-SQL 87 5.5 Spark SQL的UDF使用 88 5.5.1 UDF实验环境配置 88 5.5.2 UDF操作 89 5.6 JDBC操作MySQL 90 5.6.1 Spark SQL访问数据库的原理 90 5.6.2 安装MySQL,配置远程登录 92 5.6.3 编写代码读取数据 93 本章习题 94 第6章 Spark与机器学习 96 6.1 机器学习简介 96 6.1.1 常见机器学习分类 97 6.1.2 简单线性回归算法 97 6.2 Spark机器学习优势和潜力 100 6.2.1 Spark机器学习的优势 100 6.2.2 Spark机器学习包介绍 100 6.2.3 机器学习模型示例 101 6.3 Spark MLlib的数据类型 103 6.3.1 向量和矩阵 104 6.3.2 Basic Statistics 104 6.4 线性回归算法原理与使用 105 6.4.1 线性回归基本原理 105 6.4.2 Spark的线性回归介绍 107 6.5 逻辑回归算法原理与使用 109 6.5.1 逻辑回归基本原理 109 6.5.2 Spark的逻辑回归介绍 110 6.6 支持向量计算法原理与使用 112 6.6.1 支持向量机原理 112 6.6.2 Spark的支持向量机实现 113 6.7 朴素贝叶斯算法原理与使用 114 6.7.1 贝叶斯算法原理 114 6.7.2 贝叶斯公式进行垃圾邮件分类 116 6.8 决策树算法原理与使用 117 6.8.1 决策树算法原理 117 6.8.2 Spark的决策树算法实现 119 6.9 随机森林算法原理与使用 120 6.9.1 随机森林算法原理 120 6.9.2 Spark的随机森林算法使用 121 6.10 K-Means算法原理与使用 122 6.10.1 K-Means算法原理 122 6.10.2 Spark的K-Means算法使用 124 6.11 ALS协同推荐算法原理与使用 125 6.11.1 ALS协同推荐算法原理 125 6.11.2 Spark的ALS协同推荐算法使用 126 本章习题 127 第7章 案例分析 129 7.1 网络日志分析 129 7.1.1 数据集介绍 129 7.1.2 环境配置 134 7.1.3 实验步骤 135 7.1.4 结果分析 139 7.2 电商广告案例 140 7.2.1 数据集介绍 140 7.2.2 环境配置 141 7.2.3 实验步骤 142 7.2.4 结果分析 147 7.3 实时路况案例 148 7.3.1 案例简介 148 7.3.2 环境配置 149 7.3.3 实验步骤 149 7.3.4 结果分析 152 7.4 黑名单案例 154 7.4.1 案例简介 154 7.4.2 环境配置 156 7.4.3 实验步骤 156 7.4.4 结果分析 158 7.5 性别预测案例 159 7.5.1 分析建模与数据构造 159 7.5.2 环境配置 160 7.5.3 实验步骤 161 7.5.4 结果分析 162 7.6 年龄预测案例 162 7.6.1 案例简介 162 7.6.2 环境配置 162 7.6.3 实验步骤 163 7.6.4 结果分析 164 7.7 垃圾邮件案例 166 7.7.1 案例简介 166 7.7.2 环境配置 166 7.7.3 实验步骤 167 7.7.4 结果分析 168 7.8 图片分类案例 168 7.8.1 案例简介 168 7.8.2 环境配置 169 7.8.3 实验步骤 169 7.8.4 结果分析 172 7.9 电影推荐案例 173 7.9.1 案例简介 173 7.9.2 环境配置 173 7.9.3 实验步骤 174 7.9.4 结果分析 178 7.10 推荐系统案例 181 7.10.1 案例简介 181 7.10.2 环境配置 182 7.10.3 实验步骤 182 7.10.4 结果分析 191 本章习题 191 参考文献 193 附录 194 一. 本书中出现的专业术语缩写英汉对照表 194 二. 习题参考答案 194 前 言 2 序 3 目录 4 第1章 Spark初识 9 1.1 Spark简介 9 1.2 Spark体系架构 9 1.2.1 Spark SQL 10 1.2.2 Spark Streaming 10 1.2.3 MLlib机器学习 11 1.2.4 GraphX 12 1.3 Spark的安装与配置 12 1.3.1 安装Spark 12 1.3.2 使用Spark Shell 14 1.3.3 Spark的简单使用 16 1.4 Spark 运行模式 19 1.4.1 Local模式 19 1.4.2 Standalone模式 20 1.4.3 Spark On Mesos 20 1.4.4 Spark On YARN 20 1.4.5 Spark On Cloud 21 本章习题 21 第2章 Spark核心概念 23 2.1 RDD简介 23 2.1.1 RDD概念 23 2.1.2 RDD运行原理 23 2.1.3 RDD操作 26 2.1.4 RDD容错与持久化 29 2.2 RDD的依赖关系 30 2.2.1 窄依赖 30 2.2.2 宽依赖 31 2.3 RDD共享变量 33 2.3.1 Broadcast广播变量 33 2.3.2 Accumulator累加器 35 2.4 Spark优化 36 2.4.1 开发调优 36 2.4.2 资源调优 36 2.4.3 数据倾斜调优和Shuffle调优 39 2.4.4 重复利用RDD并使用缓存 40 2.4.5 Spark参数调优 41 本章习题 42 第3章 Spark架构与执行流程 44 3.1 Spark架构与运行 44 3.2 Spark核心组件 46 3.2.1 Scheduler(调度) 46 3.2.2 RDD(弹性分布式数据集) 48 3.2.3 Storage(存储) 49 3.2.4 Shuffle(洗牌) 49 3.3 Spark程序执行基本流程 50 3.3.1 运行流程 50 本章习题 52 第4章 Spark流式计算 53 4.1 Spark Streaming简介 53 4.1.1 流式计算和批处理的关系 53 4.1.2 主流的流式计算框架 53 4.2 Spark Streaming架构 54 4.2.1 Spark Streaming运行原理 54 4.2.2 Spark Streaming组件 55 4.2.3 Spark Streaming应用场景及优点 56 4.3 Spark streaming编程 58 4.3.1 自定义数据源Receiver 58 4.3.2 API的使用 60 4.4 Flume、Kafka和Spark Streaming结合使用 64 4.4.1 Flume和Kafka安装 64 4.4.2 Kafka、Flume和Spark编程 69 本章习题 72 第5章 Spark SQL 74 5.1 Spark SQL介绍 74 5.1.1 Spark SQL的使用入门 74 5.1.2 DataFrame相关操作 74 5.1.3 Spark SQL 2.0介绍 75 5.2 Spark SQL架构 76 5.2.1 Spark SQL组件 76 5.2.2 Spark SQL运行原理 76 5.3 DataFrame 77 5.3.1 DataFrame相关操作 77 5.3.2 运行SQL操作不同数据源 81 5.3.3 RDD、DataFrame和DataSet 84 5.4 Spark SQL的Shell 85 5.4.1 Spark SQL实验环境配置 85 5.4.2 使用Spark-Shell 86 5.4.3 使用Spark-SQL 87 5.5 Spark SQL的UDF使用 88 5.5.1 UDF实验环境配置 88 5.5.2 UDF操作 89 5.6 JDBC操作MySQL 90 5.6.1 Spark SQL访问数据库的原理 90 5.6.2 安装MySQL,配置远程登录 92 5.6.3 编写代码读取数据 93 本章习题 94 第6章 Spark与机器学习 96 6.1 机器学习简介 96 6.1.1 常见机器学习分类 97 6.1.2 简单线性回归算法 97 6.2 Spark机器学习优势和潜力 100 6.2.1 Spark机器学习的优势 100 6.2.2 Spark机器学习包介绍 100 6.2.3 机器学习模型示例 101 6.3 Spark MLlib的数据类型 103 6.3.1 向量和矩阵 104 6.3.2 Basic Statistics 104 6.4 线性回归算法原理与使用 105 6.4.1 线性回归基本原理 105 6.4.2 Spark的线性回归介绍 107 6.5 逻辑回归算法原理与使用 109 6.5.1 逻辑回归基本原理 109 6.5.2 Spark的逻辑回归介绍 110 6.6 支持向量计算法原理与使用 112 6.6.1 支持向量机原理 112 6.6.2 Spark的支持向量机实现 113 6.7 朴素贝叶斯算法原理与使用 114 6.7.1 贝叶斯算法原理 114 6.7.2 贝叶斯公式进行垃圾邮件分类 116 6.8 决策树算法原理与使用 117 6.8.1 决策树算法原理 117 6.8.2 Spark的决策树算法实现 119 6.9 随机森林算法原理与使用 120 6.9.1 随机森林算法原理 120 6.9.2 Spark的随机森林算法使用 121 6.10 K-Means算法原理与使用 122 6.10.1 K-Means算法原理 122 6.10.2 Spark的K-Means算法使用 124 6.11 ALS协同推荐算法原理与使用 125 6.11.1 ALS协同推荐算法原理 125 6.11.2 Spark的ALS协同推荐算法使用 126 本章习题 127 第7章 案例分析 129 7.1 网络日志分析 129 7.1.1 数据集介绍 129 7.1.2 环境配置 134 7.1.3 实验步骤 135 7.1.4 结果分析 139 7.2 电商广告案例 140 7.2.1 数据集介绍 140 7.2.2 环境配置 141 7.2.3 实验步骤 142 7.2.4 结果分析 147 7.3 实时路况案例 148 7.3.1 案例简介 148 7.3.2 环境配置 149 7.3.3 实验步骤 149 7.3.4 结果分析 152 7.4 黑名单案例 154 7.4.1 案例简介 154 7.4.2 环境配置 156 7.4.3 实验步骤 156 7.4.4 结果分析 158 7.5 性别预测案例 159 7.5.1 分析建模与数据构造 159 7.5.2 环境配置 160 7.5.3 实验步骤 161 7.5.4 结果分析 162 7.6 年龄预测案例 162 7.6.1 案例简介 162 7.6.2 环境配置 162 7.6.3 实验步骤 163 7.6.4 结果分析 164 7.7 垃圾邮件案例 166 7.7.1 案例简介 166 7.7.2 环境配置 166 7.7.3 实验步骤 167 7.7.4 结果分析 168 7.8 图片分类案例 168 7.8.1 案例简介 168 7.8.2 环境配置 169 7.8.3 实验步骤 169 7.8.4 结果分析 172 7.9 电影推荐案例 173 7.9.1 案例简介 173 7.9.2 环境配置 173 7.9.3 实验步骤 174 7.9.4 结果分析 178 7.10 推荐系统案例 181 7.10.1 案例简介 181 7.10.2 环境配置 182 7.10.3 实验步骤 182 7.10.4 结果分析 191 本章习题 191 参考文献 193 附录 194 一. 本书中出现的专业术语缩写英汉对照表 194 二. 习题参考答案 194 前 言 2 序 3 目录 4 第1章 Spark初识 9 1.1 Spark简介 9 1.2 Spark体系架构 9 1.2.1 Spark SQL 10 1.2.2 Spark Streaming 10 1.2.3 MLlib机器学习 11 1.2.4 GraphX 12 1.3 Spark的安装与配置 12 1.3.1 安装Spark 12 1.3.2 使用Spark Shell 14 1.3.3 Spark的简单使用 16 1.4 Spark 运行模式 19 1.4.1 Local模式 19 1.4.2 Standalone模式 20 1.4.3 Spark On Mesos 20 1.4.4 Spark On YARN 20 1.4.5 Spark On Cloud 21 本章习题 21 第2章 Spark核心概念 23 2.1 RDD简介 23 2.1.1 RDD概念 23 2.1.2 RDD运行原理 23 2.1.3 RDD操作 26 2.1.4 RDD容错与持久化 29 2.2 RDD的依赖关系 30 2.2.1 窄依赖 30 2.2.2 宽依赖 31 2.3 RDD共享变量 33 2.3.1 Broadcast广播变量 33 2.3.2 Accumulator累加器 35 2.4 Spark优化 36 2.4.1 开发调优 36 2.4.2 资源调优 36 2.4.3 数据倾斜调优和Shuffle调优 39 2.4.4 重复利用RDD并使用缓存 40 2.4.5 Spark参数调优 41 本章习题 42 第3章 Spark架构与执行流程 44 3.1 Spark架构与运行 44 3.2 Spark核心组件 46 3.2.1 Scheduler(调度) 46 3.2.2 RDD(弹性分布式数据集) 48 3.2.3 Storage(存储) 49 3.2.4 Shuffle(洗牌) 49 3.3 Spark程序执行基本流程 50 3.3.1 运行流程 50 本章习题 52 第4章 Spark流式计算 53 4.1 Spark Streaming简介 53 4.1.1 流式计算和批处理的关系 53 4.1.2 主流的流式计算框架 53 4.2 Spark Streaming架构 54 4.2.1 Spark Streaming运行原理 54 4.2.2 Spark Streaming组件 55 4.2.3 Spark Streaming应用场景及优点 56 4.3 Spark streaming编程 58 4.3.1 自定义数据源Receiver 58 4.3.2 API的使用 60 4.4 Flume、Kafka和Spark Streaming结合使用 64 4.4.1 Flume和Kafka安装 64 4.4.2 Kafka、Flume和Spark编程 69 本章习题 72 第5章 Spark SQL 74 5.1 Spark SQL介绍 74 5.1.1 Spark SQL的使用入门 74 5.1.2 DataFrame相关操作 74 5.1.3 Spark SQL 2.0介绍 75 5.2 Spark SQL架构 76 5.2.1 Spark SQL组件 76 5.2.2 Spark SQL运行原理 76 5.3 DataFrame 77 5.3.1 DataFrame相关操作 77 5.3.2 运行SQL操作不同数据源 81 5.3.3 RDD、DataFrame和DataSet 84 5.4 Spark SQL的Shell 85 5.4.1 Spark SQL实验环境配置 85 5.4.2 使用Spark-Shell 86 5.4.3 使用Spark-SQL 87 5.5 Spark SQL的UDF使用 88 5.5.1 UDF实验环境配置 88 5.5.2 UDF操作 89 5.6 JDBC操作MySQL 90 5.6.1 Spark SQL访问数据库的原理 90 5.6.2 安装MySQL,配置远程登录 92 5.6.3 编写代码读取数据 93 本章习题 94 第6章 Spark与机器学习 96 6.1 机器学习简介 96 6.1.1 常见机器学习分类 97 6.1.2 简单线性回归算法 97 6.2 Spark机器学习优势和潜力 100 6.2.1 Spark机器学习的优势 100 6.2.2 Spark机器学习包介绍 100 6.2.3 机器学习模型示例 101 6.3 Spark MLlib的数据类型 103 6.3.1 向量和矩阵 104 6.3.2 Basic Statistics 104 6.4 线性回归算法原理与使用 105 6.4.1 线性回归基本原理 105 6.4.2 Spark的线性回归介绍 107 6.5 逻辑回归算法原理与使用 109 6.5.1 逻辑回归基本原理 109 6.5.2 Spark的逻辑回归介绍 110 6.6 支持向量计算法原理与使用 112 6.6.1 支持向量机原理 112 6.6.2 Spark的支持向量机实现 113 6.7 朴素贝叶斯算法原理与使用 114 6.7.1 贝叶斯算法原理 114 6.7.2 贝叶斯公式进行垃圾邮件分类 116 6.8 决策树算法原理与使用 117 6.8.1 决策树算法原理 117 6.8.2 Spark的决策树算法实现 119 6.9 随机森林算法原理与使用 120 6.9.1 随机森林算法原理 120 6.9.2 Spark的随机森林算法使用 121 6.10 K-Means算法原理与使用 122 6.10.1 K-Means算法原理 122 6.10.2 Spark的K-Means算法使用 124 6.11 ALS协同推荐算法原理与使用 125 6.11.1 ALS协同推荐算法原理 125 6.11.2 Spark的ALS协同推荐算法使用 126 本章习题 127 第7章 案例分析 129 7.1 网络日志分析 129 7.1.1 数据集介绍 129 7.1.2 环境配置 134 7.1.3 实验步骤 135 7.1.4 结果分析 139 7.2 电商广告案例 140 7.2.1 数据集介绍 140 7.2.2 环境配置 141 7.2.3 实验步骤 142 7.2.4 结果分析 147 7.3 实时路况案例 148 7.3.1 案例简介 148 7.3.2 环境配置 149 7.3.3 实验步骤 149 7.3.4 结果分析 152 7.4 黑名单案例 154 7.4.1 案例简介 154 7.4.2 环境配置 156 7.4.3 实验步骤 156 7.4.4 结果分析 158 7.5 性别预测案例 159 7.5.1 分析建模与数据构造 159 7.5.2 环境配置 160 7.5.3 实验步骤 161 7.5.4 结果分析 162 7.6 年龄预测案例 162 7.6.1 案例简介 162 7.6.2 环境配置 162 7.6.3 实验步骤 163 7.6.4 结果分析 164 7.7 垃圾邮件案例 166 7.7.1 案例简介 166 7.7.2 环境配置 166 7.7.3 实验步骤 167 7.7.4 结果分析 168 7.8 图片分类案例 168 7.8.1 案例简介 168 7.8.2 环境配置 169 7.8.3 实验步骤 169 7.8.4 结果分析 172 7.9 电影推荐案例 173 7.9.1 案例简介 173 7.9.2 环境配置 173 7.9.3 实验步骤 174 7.9.4 结果分析 178 7.10 推荐系统案例 181 7.10.1 案例简介 181 7.10.2 环境配置 182 7.10.3 实验步骤 182 7.10.4 结果分析 191 本章习题 191 参考文献 193 附录 194 一. 本书中出现的专业术语缩写英汉对照表 194 二. 习题参考答案 194
展开全部

Spark大数据技术应用实践 作者简介

饶泓,女,1973年生,博士,南昌大学教授,现任南昌大学信息工程学院副院长,博士生导师,中国计算机学会会员。2004.1-2004.6公派访学美国伊利诺伊州立大学,2012.7-2015.5赴美国堪萨斯大学访学。主要研究方向为机器学习、数据挖掘、大数据处理算法及其应用。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服