书馨卡帮你省薪 2024个人购书报告 2024中图网年度报告
欢迎光临中图网 请 | 注册

HCIA-BIG DATA学习指南

出版社:人民邮电出版社出版时间:2024-10-01
开本: 16开 页数: 202
中 图 价:¥62.9(7.0折) 定价  ¥89.8 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

HCIA-BIG DATA学习指南 版权信息

HCIA-BIG DATA学习指南 本书特色

1.本书是华为HCIA-Big Data认证的官方教材,内容专业、可靠。

2.本书采用大量的实践案例,并结合了行业典型应用。

3.本书从基础概念到核心技术,再到解决方案,全方位覆盖大数据知识体系。

4.本书介绍前沿技术如ClickHouse与ElasticSearch,拓宽读者视野,紧跟技术发展趋势。

5.本书提供丰富的教学资源,如电子课件等。

HCIA-BIG DATA学习指南 内容简介

本书以大数据为中心,对大数据及其相关技术、产品和实践案例进行了详细的讲解。全书共分9章,从大数据概述、华为大数据产品入手,详细介绍了开源的分布式计算框架——Hadoop,以及Hadoop生态圈的多个组件:Flume、Kafka、HDFS、Zookeeper、MapReduce、YARN、HBase、Hive、Spark以及Flink;除上述组件外,还介绍了ElasticSearch和ClickHouse。     本书适合正在准备考取华为HCIA-Big Data认证的人员、从事大数据工作的专业人员阅读,也可作为高等院校相关专业师生的参考书。

HCIA-BIG DATA学习指南 目录

第 1章 大数据概述 2

  1.1 什么是大数据 4

1.1.1 大数据的来源 4

1.1.2 大数据的发展历程 6

  1.2 大数据的数据特征及数据类型 7

  1.3 华为鲲鹏大数据 12

  1.4 大数据的发展趋势 14

  1.5 华为DataArts Studio 15

1.5.1 什么是DataArts Studio 16

1.5.2 DataArts Studio产品功能 16

1.5.3 DataArts Studio应用场景 18

  1.6 华为云大数据服务——MRS 21

  习题 24

第 2章 大数据采集与分布式流处理平台 26

  2.1 大数据采集技术 28

  2.2 Flume 29

2.2.1 Flume简介及框架 29

2.2.2 Flume的关键特性 32

2.2.3 Flume应用举例 33

  2.3 Kafka 33

2.3.1 Kafka简介 34

2.3.2 Kafka的架构与功能 36

2.3.3 Kafka数据管理 40

  习题 42

第3章 大数据分布式处理概述 44

  3.1 大数据开发与分布式技术简介 46

3.1.1 大数据开发 47

3.1.2 分布式管理技术 49

  3.2 Hadoop——分布式大数据系统 50

3.2.1 Hadoop简介 50

3.2.2 Hadoop 3.x 53

  3.3 Hadoop的体系架构 55

  3.4 Hadoop与分布式开发 58

  3.5 Hadoop的生态系统 60

  习题 68

第4章 HDFS分布式文件系统和ZooKeeper 70

  4.1 分布式文件系统 72

4.1.1 分布式文件系统的设计思路 72

4.1.2 *早的分布式文件系统 73

4.1.3 大数据环境下分布式文件系统的优化思路 75

  4.2 HDFS的体系架构及特点 76

4.2.1 HDFS的体系架构 76

4.2.2 HDFS的特点 78

  4.3 HDFS的完整性 79

4.3.1 校验和 79

4.3.2 运行后台进程来检测数据块 79

  4.4 HDFS数据的读/写流程 80

  4.5 HDFS的常用工具 83

4.5.1 FsShell实现 83

4.5.2 DFSAdmin实现 84

  4.6 ZooKeeper分布式协调服务 86

4.6.1 ZooKeeper概述 86

4.6.2 ZooKeeper的体系结构 87

4.6.3 ZooKeeper奇数节点和偶数节点 89

  习题 90

第5章 分布式计算——MapReduce和YARN 92

  5.1 什么是MapReduce 94

  5.2 MapReduce编程模型 95

5.2.1 MapReduce简单模型 96

5.2.2 MapReduce复杂模型 97

5.2.3 WordCount案例 98

  5.3 MapReduce数据流及任务流 101

5.3.1 MapReduce数据流 101

5.3.2 MapReduce任务流 104

  5.4 YARN概述 106

  5.5 YARN的基本框架 107

  5.6 YARN的工作流程 110

  习题 112

第6章 分布式数据库技术——HBase 114

  6.1 海量数据与NoSQL 116

6.1.1 关系数据库的局限 116

6.1.2 CAP理论 116

6.1.3 NoSQL 118

  6.2 HBase简介 119

  6.3 HBase表视图 122

6.3.1 HBase逻辑视图 122

6.3.2 HBase物理视图 123

  6.4 HBase物理存储模型 126

  6.5 HBase的基本操作 127

6.5.1 HBase Shell的命令 127

6.5.2 general操作 128

6.5.3 DDL(数据定义语言)操作 129

  习题 131

第7章 分布式数据仓库技术——Hive 134

  7.1 什么是Hive 136

7.1.1 Hive的本质 136

7.1.2 Hive的基础架构 137

  7.2 Hive的安全性 140

7.2.1 默认授权模式 140

7.2.2 基于存储的授权模式 140

7.2.3 基于SQL标准的授权模式 141

  7.3 Hive Shell 141

  7.4 Hive的性能调优 145

7.4.1 分区表 146

7.4.2 存储优化 147

7.4.3 矢量化查询优化 148

  7.5 HQL简介 149

7.5.1 认识HQL 149

7.5.2 Hive管理数据的方式 150

  习题 151

第8章 ClickHouse与ElasticSearch分布式搜索 152

  8.1 ClickHouse概述 154

  8.2 ClickHouse的架构及其基本特性 155

8.2.1 ClickHouse的架构 155

8.2.2 ClickHouse的基本特性 157

  8.3 ClickHouse的使用案例 159

  8.4 ElasticSearch简介 166

  8.5 ElasticSearch的架构及其基本特性 170

8.5.1 ElasticSearch的架构 170

8.5.2 ElasticSearch的基本特性 172

  8.6 ElasticSearch的使用案例 173

  习题 179

第9章 大数据实时处理技术 182

  9.1 Spark——分布式技术 184

9.1.1 Spark概述与架构 184

9.1.2 弹性分布式数据集 186

9.1.3 Spark的扩展功能 188

9.1.4 Spark的应用举例 190

  9.2 Flink——分布式实时处理引擎 192

9.2.1 Flink的原理与架构 193

9.2.2 Flink的运行架构 195

9.2.3 Flink应用举例 197

  习题 202





展开全部

HCIA-BIG DATA学习指南 作者简介

华为技术有限公司 华为技术有限公司,成立于1987年,总部位于广东省深圳市龙岗区。华为是全球领先的信息与通信技术(ICT)解决方案供应商,专注于ICT领域,坚持稳健经营、持续创新、开放合作,在电信运营商、企业、终端和云计算等领域构筑了端到端的解决方案优势,为运营商客户、企业客户和消费者提供有竞争力的ICT解决方案、产品和服务,并致力于实现未来信息社会、构建更美好的全联接世界。

商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服