图书盲袋,以书为“药”
欢迎光临中图网 请 | 注册
> >
Hadoop技术原理与案例教程 微课版

Hadoop技术原理与案例教程 微课版

出版社:人民邮电出版社出版时间:2024-06-01
开本: 16开 页数: 348
本类榜单:教材销量榜
中 图 价:¥55.9(7.0折) 定价  ¥79.8 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

Hadoop技术原理与案例教程 微课版 版权信息

  • ISBN:9787115639691
  • 条形码:9787115639691 ; 978-7-115-63969-1
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

Hadoop技术原理与案例教程 微课版 本书特色

体系完整:涵盖Hadoop全生态技术原理与工具。

面向问题:问题引入,需求驱动、案例实践。

理论与实践并重:学习路线为“技术基础技术原理案例开发”,每章前有思维导图,后有常见问题与解决方案、本章小结。

资源丰富:提供微课、课件、视频、习题等配套教学资源。

Hadoop技术原理与案例教程 微课版 内容简介

本书系统地介绍Hadoop技术原理与应用。全书分为四篇,**篇为分布式存储与计算基础,第二篇为数据仓库Hive,第三篇为非关系数据库HBase,第四篇为综合案例。本书共14章,包括大数据基础、Hadoop简介、Hadoop分布式文件系统、Hadoop分布式计算系统、Hadoop资源管理器Yam、Hadoop案例开发、Hive原理与应用、Hive数据定义、Hive数据分析基础、Hive数据分析案例、HBase基础知识、HBase原理与架构、HBase案例开发、综合案例等。本书原理与实践并重,前三篇每章都有基本案例和课后习题,以及相应的综合应用案例,第四篇是总结性的综合案例,以便读者能够深入理解原理并培养相应的工程实践能力。本书可作为高等院校大数据、计算机、信息处理等相关专业的大数据课程教材,也可作为大数据等相关技术人员的培训教材。

Hadoop技术原理与案例教程 微课版 目录

**篇 分布式存储与计算基础

第1章 大数据基础

1.1 数据、信息和知识 2

1.2 大数据 3

1.2.1 大数据的发展历程 3

1.2.2 大数据的定义 5

1.3 数据分析流程 7

1.3.1 确定数据分析目标 7

1.3.2 数据采集 7

1.3.3 数据预处理 10

1.3.4 数据分析 11

1.4 大数据技术生态体系 13

1.5 大数据应用场景 17

1.5.1 基于大数据的电子商务 18

1.5.2 能源大数据体系建设 18

1.5.3 交通大数据体系建设 19

1.5.4 政务大数据体系建设 20

1.5.5 基于大数据的人口迁徙 21

1.5.6 农业大数据体系建设 21

1.6 本章小结 23

习题 23





第2章 Hadoop简介

2.1 Hadoop概述 25

2.1.1 起源 26

2.1.2 Hadoop发行版本 26

2.1.3 Hadoop架构变迁 27

2.1.4 Hadoop特点 27

2.2 Hadoop“生态圈” 28

2.3 Hadoop核心架构 29

2.3.1 HDFS 29

2.3.2 MapReduce 29

2.3.3 Yarn 30

2.4 Hadoop运行模式 30

2.4.1 本地模式 30

2.4.2 伪分布式模式 30

2.4.3 完全分布式模式 31

2.5 Hadoop集群搭建 31

2.5.1 集群规划 31

2.5.2 基本软件的安装 32

2.5.3 完全分布式集群的搭建 33

2.6 常见问题及解决方案 46

2.7 本章小结 47

习题 47



第3章 Hadoop分布式文件系统

3.1 HDFS概述 50

3.1.1 文件系统 50

3.1.2 传统文件系统 50

3.1.3 HDFS的引入 51

3.1.4 HDFS的设计目标 51

3.1.5 HDFS的使用场景 52

3.1.6 HDFS的局限性 52

3.2 HDFS的技术架构 53

3.2.1 分块存储 53

3.2.2 副本机制 55

3.2.3 NameNode 55

3.2.4 DataNode 56

3.2.5 SecondaryNameNode 57

3.2.6 BackupNode 58

3.2.7 HDFS写入数据流程 58

3.2.8 HDFS读取数据流程 59

3.3 HDFS的Shell操作 60

3.3.1 基本命令 60

3.3.2 上传命令 61

3.3.3 下载命令 61

3.3.4 高级操作 61

3.4 HDFS的API实战开发 62

3.4.1 环境介绍 62

3.4.2 pom.xml配置说明 62

3.4.3 HDFS操作 63

3.5 HDFS核心解密 65

3.5.1 再谈NameNode 65

3.5.2 节点的服役 67

3.5.3 节点的退役 68

3.5.4 DataNode多目录的配置 69

3.6 常见问题及解决方案 69

3.7 本章小结 70

习题 70



第4章 Hadoop分布式计算系统

4.1 MapReduce概述 74

4.2 WordCount入门 74

4.2.1 下载Hadoop配置文件 74

4.2.2 项目配置 75

4.2.3 打包在集群运行 77

4.3 MapReduce编程思想 78

4.3.1 MapReduce原理 79

4.3.2 MapReduce进程 80

4.3.3 MapReduce编程规范 80

4.4 Hadoop序列化 81

4.4.1 序列化与反序列化 81

4.4.2 Hadoop序列化要求 81

4.4.3 Hadoop序列化机制 82

4.5 MapReduce输入 83

4.6 Shuffle过程 87

4.6.1 Shuffle原理 87

4.6.2 分区 88

4.6.3 排序 89

4.6.4 分组 91

4.7 Combiner过程 92

4.8 MapReduce输出 93

4.9 常见问题及解决方案 94

4.10 本章小结 98

习题 98



第5章 Hadoop资源管理器Yarn

5.1 Yarn基本结构 100

5.1.1 ResourceManager 101

5.1.2 ApplicationMaster 101

5.1.3 NodeManager 102

5.1.4 Container 102

5.2 Yarn工作机制 102

5.3 Yarn资源调度器 103

5.3.1 FIFO Scheduler 104

5.3.2 Capacity Scheduler 104

5.3.3 Fair Scheduler 107

5.4 本章小结 107

习题 107



第6章 Hadoop案例开发

6.1 WordCount 109

6.2 *值 112

6.3 全排序 113

6.4 二次排序 115

6.5 MapReduce链 117

6.6 MapReduce数据合并 120

6.6.1 案例描述 120

6.6.2 Reduce JOIN实现 121

6.6.3 Map JOIN实现 124

6.7 本章小结 125

习题 125



第二篇 数据仓库Hive



第7章 Hive原理与应用

7.1 Hive简介 127

7.1.1 数据仓库简介 127

7.1.2 Hive起源 127

7.1.3 Hive的主要特点 128

7.1.4 Hive下载 128

7.1.5 Hive安装包 129

7.2 Hive组件简介 131

7.2.1 Hive元数据管理 131

7.2.2 Metastore 132

7.2.3 HiveServer2 132

7.3 Hive启动方式 133

7.3.1 Hive Metastore部署模式 133

7.3.2 JDBC访问Hive 139

7.4 Hive配置文件详解 142

7.4.1 Hive的核心配置文件 142

7.4.2 Hive运行环境参数配置 145

7.4.3 Hive的本地运行模式 146

7.5 本章小结 147

习题 147



第8章 Hive数据定义

8.1 Hive的数据结构 149

8.1.1 创建数据库与表 149

8.1.2 加载数据到表中 153

8.1.3 查询数据库与表 160

8.1.4 修改数据库与表 162

8.1.5 删除数据库与表 163

8.1.6 导出数据 164

8.2 Hive的数据类型 165

8.2.1 Hive原生数据类型 165

8.2.2 Hive复杂数据类型 169

8.2.3 数据类型转换 174

8.3 Hive的数据模型 175

8.3.1 外部表与内部表的定义与区别 176

8.3.2 分区的概念与作用 182

8.3.3 分桶的概念与作用 193

8.3.4 Hive数据表的序列化与反序列化 197

8.4 本章小结 199

习题 199



第9章 Hive数据分析基础

9.1 基于IntelliJ IDEA实现Hive操作 204

9.1.1 基于IntelliJ IDEA配置Hive 204

9.1.2 Hive服务器连接 204

9.1.3 Console功能区 206

9.2 数据查询 209

9.2.1 基本查询 209

9.2.2 分组查询 214

9.2.3 子查询 218

9.2.4 Hive的JOIN操作 220

9.2.5 Hive的JOIN原理 228

9.3 常用系统函数 231

9.3.1 聚合函数 231

9.3.2 窗口函数 232

9.3.3 表值函数 236

9.3.4 时间日期函数 238

9.3.5 字符串函数 240

9.3.6 数学函数 242

9.3.7 集合函数 243

9.4 自定义函数 244

9.4.1 UDF 245

9.4.2 UDAF 248

9.4.3 UDTF 250

9.5 本章小结 251

习题 251



第10章 Hive数据分析案例

10.1 数据分析流程与数据分析目标的选定 255

10.1.1 数据分析流程 255

10.1.2 数据分析目标的选定 255

10.2 常用数据分析方法 256

10.2.1 描述性数据分析 256

10.2.2 探索性数据分析 258

10.2.3 预测性数据分析 260

10.3 二手车数据集 261

10.3.1 数据集简介 261

10.3.2 数据分析目标 262

10.3.3 数据导入 262

10.4 二手车市场特征和需求探索案例 263

10.4.1 二手车数据描述性分析 263

10.4.2 二手车数据处理与转换 269

10.4.3 二手车数据探索性分析 270

10.4.4 二手车数据异常值与缺失值处理 271

10.5 二手车数据变量关系分析 272

10.5.1 相关系数简介 272

10.5.2 二手车数据相关系数分析 272

10.5.3 特征关系可视化分析 275

10.5.4 结果分析与结论 276

10.6 二手车数据聚类分析 277

10.7 本章小结 278

习题 278



第三篇 非关系数据库HBase



第11章 HBase基础知识

11.1 HBase概述 281

11.1.1 NoSQL的出现 281

11.1.2 HBase的出现 281

11.1.3 HBase的相关学习资源 281

11.2 HBase系统部署 281

11.2.1 版本选择 281

11.2.2 系统准备 282

11.2.3 组件的上传和解压 283

11.2.4 配置环境变量 283

11.2.5 配置ZooKeeper 284

11.2.6 配置HBase 284

11.3 HBase基本Shell操作 286

11.3.1 启动HBase Shell 286

11.3.2 创建和删除表 286

11.3.3 写入数据 287

11.3.4 查询数据 288

11.3.5 删除数据 289

11.3.6 表结构处理 289

11.4 HBase基本API操作 290

11.4.1 Maven工程基本结构 290

11.4.2 创建和删除表 291

11.4.3 写入数据 293

11.4.4 查询数据 294

11.4.5 删除数据 294

11.5 本章小结 295

习题 295





第12章 HBase原理与架构

12.1 HBase数据存储结构 297

12.1.1 大数据时代的MySQL 297

12.1.2 解决问题的思路 299

12.1.3 两类存储思路的对比 300

12.1.4 HBase的数据格式 300

12.2 HBase架构 300

12.2.1 HBase整体架构 301

12.2.2 客户端和HBase的通信过程 302

12.2.3 WAL与HLOG 302

12.2.4 HBase与HDFS 302

12.3 本章小结 303

习题 303



第13章 HBase案例开发

13.1 数据准备 304

13.2 基础统计任务 306

13.2.1 基本查询 306

13.2.2 过滤器 307

13.2.3 基本统计任务 310

13.3 高级统计任务 312

13.3.1 HBase on MapReduce 312

13.3.2 HBase with Hive 317

13.4 本章小结 318

习题 319



第四篇 综合案例



第14章 综合案例:维基百科数据挖掘

14.1 案例介绍 320

14.1.1 常见文本语料格式 320

14.1.2 语料介绍 321

14.2 案例步骤 322

14.2.1 数据的下载与上传 322

14.2.2 创建Hive外接表 325

14.2.3 正文字段预处理 328

14.2.4 文章单词统计 329

14.2.5 文章倒排表 330

14.2.6 正负面分析 332

14.3 本章小结 333

参考文献 334

展开全部

Hadoop技术原理与案例教程 微课版 作者简介

韩玉民,长期从事计算机教育与软件研发,担任中原工学院软件学院教学副院长十多年,创新教学理念,具有丰富的专业建设、课程与教材建设、教研教改经验。软件工程专业入选国家一流本科专业建设点。 主持、参与完成省级以上教研项目多项,获省级以上教学成果奖励四项,一项获2021年度河南省教学成果特等奖,并入选国家级2022年教学成果奖推荐名单。 主编、副主编专业教材12部,获得首届河南省教材建设二等奖一项

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服