欢迎光临中图网 请 | 注册
> >
Hadoop+Spark+Python大数据处理从算法到实战

Hadoop+Spark+Python大数据处理从算法到实战

作者:朱春旭
出版社:北京大学出版社出版时间:2021-06-01
开本: 16开 页数: 448
中 图 价:¥74.3(7.5折) 定价  ¥99.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

Hadoop+Spark+Python大数据处理从算法到实战 版权信息

  • ISBN:9787301321447
  • 条形码:9787301321447 ; 978-7-301-32144-7
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

Hadoop+Spark+Python大数据处理从算法到实战 本书特色

1.书力求简单、实用,坚持以实例为主,理论为辅。 从应用场景切入,围绕新基建的云计算、大数据及人工智能,介绍大数据的概念与特点及典型的产业应用场景,使读者了解大数据项目和机器学习开发过程,能设计不同场景下的项目架构,并做好不同业务下的数据建模。 2.Hadoop+spark+Python三合一,内容讲解重点分明,细节具体。本书解析了每个领域内的复杂逻辑和丰富内涵,尽可能让读者用更低的成本,尽快掌握相关技术,紧跟时代步伐。本书大多数章节都包含实训模块,让读者在学完该章节的知识后能够举一反三,学以致用,早日投身新基建。 3.布局合理,循序渐进,自有章法。本书先介绍了入门级的容器化工具Docker 与 Kubernetes,然后介绍大数据的常用组件,为读者的后续实践打好基础后,开始讲解机器学习库的相关用法;随着人工智能的快速发展,神经网络及相关的开发工具也愈发强大,因此引入了能解决更复杂问题,但操作又比较简单的深度学习框架 TensorFlow。掌握TensorFlow,既弥补了 Spark、scikit-learn 的不足,又能应对更困难的场景。

Hadoop+Spark+Python大数据处理从算法到实战 内容简介

本书围绕新基建的云计算、大数据及人工智能进行介绍,分为以下五个部分。 部分介绍大数据的概念与特点,以及典型的产业应用场景;第二部分介绍目前云计算中的一个重要的研究与应用领域—容器云,包含应用容器引擎Docker与容器编排工具Kubernetes;第三部分是大数据分析的基础,也是大数据分析技术的重点,包含Hadoop、HBase、Hive、Spark的环境搭建及开发流程;第四部分是机器学习相关算法的应用,包含scikit-learn、SparkML、TensorFlow工具的使用;第五部分,以实例介绍如何使用Spark机器学习库中的协同过滤算法,来实现一个基于Web的推荐系,以及介绍如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。 本书轻理论,重实践,适合有一定编程基础,且对云计算、大数据、机器学习、人工智能感兴趣,希望投身到新基建这一伟大事业的读者学习。同时,本书还可作为广大院校相关专业的教材和培训参考用书。

Hadoop+Spark+Python大数据处理从算法到实战 目录

第1篇 入门篇
第 1 章 初识大数据 002
1.2 如何处理与分析大数据 004
1.3 大数据的产业应用 008
第2篇 准备篇
第 2 章 万丈高楼平地起,使用 Docker 作地基 011
2.1 初识 Docker 011
2.2 搭建 Docker 运行环境 016
2.3 Docker 操作镜像 029
2.4 Docker 操作容器 036
2.5 Docker 私有仓库 045
2.6 Docker Compose 编排容器046
2.7 Portainer 可视化工具 053
2.8 实训:构建 Nginx 镜像并创建容器 055
第 3 章  团队合作好,使用 Kubernetes 来协调 057
3.1 初识 Kubernetes057
3.2 搭建集群 063
3.4 Kubernetes Dashboard 管理工具 079
3.5 实训:在集群中部署 Nginx 服务器集群 084
第3篇 技法篇
第 4 章  筑高楼,需利器,使用 Hadoop 做核心 088
4.1 Hadoop 简介 088
4.2 HDFS 分布式文件系统 092
4.3 任务调度与资源管理器 YARN 097
4.4 MapReduce 分布式计算框架104
4.5 Hadoop 环境搭建 113
4.6 Hadoop 常用操作命令 127
4.7 实训:在容器中部署 Hadoop集群 130
第 5 章  空间要灵活,使用 HBase 来管理 136
5.1 初识 HBase 136
5.2 HBase 环境搭建144
5.3 HBase Shell 操作 152
5.4 HBase Thrift 编程接口 160
5.5 Region 的拆分与合并 162
5.6 实训:构建订单管理表 165
第 6 章  数据需要规划,使用 Hive 建仓库169
6.1 初识 Hive 169
6.2 Hive 环境搭建 171
6.3 Hive 数据库与表 176
6.4 表的类型 183
6.5 分桶查询与排序 188
6.6 Sqoop 数据的导入导出 190
6.7 Hive Thrift 编程接口192
6.8 实训:构建订单分析数据仓库 193
第 7 章  处理要够快,使用 Spark 196
7.1 Spark 概述 196
7.2 Spark 核心原理 199
7.3 Spark 环境搭建 202
7.4 提交 Spark 应用 206
7.5 实训:在容器中部署 Spark集群 209
第 8 章  数据无结构,使用 RDD 212
8.1 RDD 设计原理 212
8.2 RDD 编程 216
8.3 键值对 RDD 224
8.4 读写文件 230
8.5 集成 HBase 232
8.6 编程进阶 234
8.7 实训:分析商品销售情况 240
第 9 章  数据有结构,使用 SQL 语句 245
9.1 Spark SQL 概述 245
9.2 创建 DataFrame 对象 249
9.3 DataFrame 常用的 API 254
9.4 保存 DataFrame 262
9.5 实训:分析公司销售业绩 264
第 10 章  Spark 流式计算编程 268
10.1 流计算简介 268
10.2 Discretized Stream 271
10.3 Structured Streaming 278
10.4 实训:实时统计贷款金额 293
第4篇 算法篇
第 11 章  发掘数据价值,使用机器学习技术297
11.1 什么是机器学习 297
11.2 scikit-learn 机器学习库303
11.3 Spark 机器学习库 308
11.4 实训:简单的情感分析 310
第 12 章  处理分类问题313
12.1 分类问题概述 313
12.2 决策树 .315
12.3 随机森林 320
12.4 Logistic 回归 325
12.5 支持向量机 329
12.6 贝叶斯 334
12.7 实训:判断用户是否购买该商品 337
第 13 章  处理回归问题 340
13.1 回归问题概述 340
13.2 线性回归与多项式回归 342
13.3 决策树回归 347
13.4 实训:预测房价 352
第 14 章  处理聚类问题 355
14.1 聚类问题概述 355
14.2 基于划分聚类 356
14.3 基于模型聚类 359
14.4 实训:对客户进行聚类 363
第 15 章  关联规则与协同过滤 365
15.1 关联规则数据挖掘 365
15.2 协同过滤 368
15.3 实训:使用 Spark ALS 推荐菜单 371
第 16 章  建立智能应用 374
16.1 构建简单模型 374
16.2 自定义模型和自定义层 384
16.3 回调 386
16.4 保存与恢复模型 388
16.5 识别手写字 391
16.6 实训:猫狗识别 394
第5篇 实战篇
第 17 章  综合实战:猜你喜欢401
17.1 项目背景与解决方案介绍 401
17.2 数据库设计 403
17.3 推荐模型 404
17.4 前端网站 406
第 18 章  综合实战:人脸识别416
18.1 项目背景与解决方案介绍 416
18.2 图像采集 418
18.3 训练模型与识别人脸 422

展开全部

Hadoop+Spark+Python大数据处理从算法到实战 节选

Kubernetes 基本对象 Kubernetes 对象是 Kubernetes 系统中的持久性实体。Kubernetes 使用这些实体来表示集群的状态。具体来说,它们可以描述以下内容。 (1)哪些容器化应用程序正在运行及在哪些节点上运行。 (2)这些应用程序可用的资源有哪些。 (3)有关这些应用程序行为的策略,如重新启动策略,升级和容错策略。 (4)对象创建后,Kubernetes 系统将持续运行以确保该对象存在并且按预定方式运行。 这里主要介绍 Kubernetes 基本对象。 1. Pod Pod 是 Kubernetes 应用程序的基本执行单元,是用户创建或部署的 Kubernetes 对象模型中*小和*简单的单元。Pod 表示在集群上运行的进程。Pod 封装了应用程序的容器、存储资源、唯一的网络 IP 和控制容器运行方式的配置。Pod 表示部署的单位,它是 Kubernetes 中应用程序的单个实例。 Pod 可由单个容器或紧密耦合并共享资源的少量容器组成。 Docker 是 Kubernetes Pod 中*常用的容器运行时,而且 Pod 也支持其他容器运行时,如containerd、cri-O、rktlet 以及任何实现了 CRI (Container Runtime Interface,容器运行时接口)的容器。 Kubernetes 集群中的 Pod 可以通过以下两种方式使用。 (1)一个 Pod 运行一个容器 “一个 Pod 对应一个容器”的模型是*常见的 Kubernetes 用法。在这种情况下,用户可以将Pod 视为单个容器的包装,Kubernetes 则直接管理 Pod,而不是直接管理容器。 (2)一个 Pod 运行多个容器 一个 Pod 封装了一个应用程序,该程序由紧密耦合且需要共享资源的多个位于同一地点的容器组成。此时一个 Pod 会运行多个容器,如图 3-2 所示。该 Pod 包含两个容器:File Puller 和 WebServer。File Puller 容器负责从远程数据源更新文件并将文件存入共享卷中,然后 Web Server 容器 从共享卷中获取数据,并反馈给 Consumers。另外,在网络资源方面,每个 Pod 分配有一个唯一的 IP 地址。Pod 中的每个容器都共享网络名称空间,包括 IP 地址和网络端口。Pod 中的容器可以使用 localhost 相互通信。 在数据存储方面,每个 Pod 可以指定一组共享存储卷。Pod 中的所有容器都可以访问共享卷,从而使这些容器可以共享数据。共享存储卷还允许 Pod 中的持久数据保留下来,以防其中的容器需要重新启动。 2. Service Pod 会经历一个生命周期,能被创建,自然也能被销毁。如果一个 Pod 正在对外提供服务,但是被销毁掉了,应用程序就需要重新部署。此时新创建的 Pod IP 地址就可能改变,那么就需要建立一种机制,使客户端感知不到后端 Pod 的变化。 Kubernetes 提供了一种名为“服务”的抽象来解决以上问题。服务定义了 Pods(多个 Pod)的逻辑集合及访问它们的策略(有时将此模式称为微服务)。 3. Volume 容器中的磁盘文件是临时的。当容器崩溃时,kubelet 将重新启动它,这会使容器以“干净”的状态启动,容器内的文件将丢失。另外在 Pod 中同时运行多个容器时,通常有必要在这些容器之间共享文件。Kubernetes 提供了 Volume 抽象解决了这两个问题。 Kubernetes 卷具有明确的生存期,这与封装它的 Pod 相同。容器运行在 Pod 中,Pod 的生命周期比容器的生命周期长。卷的寿命超过了在 Pod 中运行的所有容器的寿命,并且在容器重新启动时保留了数据。Kubernetes 支持多种类型的卷,并且 Pod 可以同时使用任意数量的卷。 卷的核心只是一个目录,其中可能包含一些数据,Pod中的容器可以访问该目录。至于如何访问,取决于卷的类型。容器中的进程可以看到由其 Docker 镜像和卷组成的文件系统视图。Docker 镜像位于文件系统层次结构的根目录中,所有卷均安装在镜像中的指定路径上。卷不能装载到其他卷上,也不能有到其他卷的硬链接。Pod 中的每个容器必须独立指定每个卷的安装位置。 4. Namespaces Kubernetes 支持在同一物理集群上构建多个虚拟集群,这些虚拟集群被称为名称空间。 Kubernetes 拥有 4 个初始的名称空间。 (1)default:是没有其他名称空间对象的默认名称空间,即在创建对象时,没有指定其他名称空间,则自动将对象划分到 default 空间下。 (2)kube-system:Kubernetes 系统创建对象的名称空间。 (3)kube-public:此名称空间主要留给集群使用,对所有用户(包括未经身份验证的用户)可读,以防某些资源在整个集群中公开可见。 (4)kube-node-lease:Kubernetes 通过发送心跳来确定节点的可用性。当集群在扩展时,为了提高节点心跳的性能,就会更新 lease 对象,与每个节点关联的 lease 对象都会放在 kube-node-lease名称空间中。实际上,名称空间的作用就是做资源隔离

Hadoop+Spark+Python大数据处理从算法到实战 作者简介

朱春旭,高级软件工程师,长期为软件开发公司、政府机构培训大数据开发与应用课程,提供大数据技术咨询与问题解决方案,对Python、大数据分析相关领域有深入研究。著有《Python编程完全自学教程》《Python数据分析与大数据处理从入门到精通》,培训学员10000+。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服