-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
Hadoop大数据处理技术基础与实践(第2版)(微课版)(本科教材) 版权信息
- ISBN:9787115545688
- 条形码:9787115545688 ; 978-7-115-54568-8
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
Hadoop大数据处理技术基础与实践(第2版)(微课版)(本科教材) 本书特色
1.28个微课视频,扫码同步学,重点难点轻松掌握2.每章都附有习题,以及实践性较强的实训,巩固所学知识3.侧重应用能力的培养,对学生起到引导作用4.配备了PPT课件、源代码、习题答案、微课等丰富的教学资源
Hadoop大数据处理技术基础与实践(第2版)(微课版)(本科教材) 内容简介
全书共有12章,从Hadoop概述开始,介绍了Hadoop的安装与配置管理,并对Hadoop的生态体系架构进行了介绍,包括HDFS技术、YARN技术、MapReduce技术、Hadoop I/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive、分布式数据分析工具Pig,以及数据迁移工具Sqoop,*后对大数据实时处理技术做了简单介绍,旨在让读者了解当前其他的大数据处理技术。本书除了介绍Hadoop的理论外,还介绍了如何使用各组件,但因为只是介绍基础的使用,没有涉及底层的高级内容,所以本书只是起引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完全手册。本书适合作为高等院校、高等职业院校大数据、物联网、云计算及其他计算机相关专业的教材,也可供云计算与大数据技术相关的培训班使用。
Hadoop大数据处理技术基础与实践(第2版)(微课版)(本科教材) 目录
Hadoop概述 1
1.1 Hadoop简介 1
1.2 Hadoop体系架构 3
1.3 Hadoop与分布式开发 4
1.4 Hadoop行业应用案例分析 6
1.4.1 Hadoop在门户网站的应用 6
1.4.2 Hadoop在搜索引擎中的应用 6
1.4.3 Hadoop在电商平台中的应用 7
习题 7
第 2章
Hadoop的安装与配置管理 8
2.1 实验准备 8
2.2 配置一个单节点环境 9
2.2.1 运行一个虚拟环境CentOS 9
2.2.2 配置网络 11
2.2.3 创建新的用户组和用户 14
2.2.4 上传文件到CentOS并配置Java和
Hadoop环境 15
2.2.5 修改Hadoop 2.7配置文件 18
2.2.6 修改CentOS主机名 21
2.2.7 绑定hostname与IP 21
2.2.8 关闭防火墙 22
2.3 节点之间的免密码通信 22
2.3.1 什么是SSH 22
2.3.2 复制虚拟机节点 23
2.3.3 配置SSH免密码登录 24
2.4 Hadoop的启动和测试 26
2.4.1 格式化文件系统 26
2.4.2 启动HDFS 27
2.4.3 启动YARN 28
2.4.4 启动JobHistory Server 28
2.4.5 集群验证 29
2.4.6 需要了解的默认配置 30
2.5 动态管理节点 31
2.5.1 动态增加和删除DataNode 31
2.5.2 动态修改TaskTracker 32
习题 33
第3章
HDFS技术 35
3.1 HDFS的特点 35
3.2 HDFS架构 36
3.2.1 数据块 36
3.2.2 NameNode与DataNode 38
3.2.3 辅助NameNode 39
3.2.4 安全模式 41
3.2.5 负载均衡 41
3.2.6 垃圾回收 42
3.3 HDFS Shell命令 42
3.3.1 文件处理命令 43
3.3.2 dfsadmin命令 48
3.3.3 NameNode命令 49
3.3.4 fsck命令 50
3.3.5 pipes命令 50
3.3.6 job命令 51
3.4 HDFS中Java API的使用 52
3.4.1 上传文件 52
3.4.2 新建文件 54
3.4.3 查看文件详细信息 55
3.4.4 下载文件 56
3.5 RPC通信 57
3.5.1 反射机制 57
3.5.2 代理模式与动态代理 60
3.5.3 Hadoop RPC机制与源码分析 62
习题 66
第4章
YARN技术 67
4.1 YARN概述 67
4.1.1 YARN产生背景——MRv1的
局限性 67
4.1.2 YARN的通信协议 68
4.2 YARN基本框架 69
4.2.1 RM进程 69
4.2.2 NM进程 70
4.2.3 AM进程 70
4.2.4 YARN的资源表示模型
Container 70
4.3 YARN资源调度器 71
4.3.1 FIFO调度器 71
4.3.2 Capacity调度器 71
4.3.3 Fair调度器 72
4.4 YARN的工作流程 72
4.5 YARN的实战案例 74
习题 77
第5章
MapReduce技术 78
5.1 什么是MapReduce 78
5.2 MapReduce编程模型 79
5.2.1 MapReduce简介 79
5.2.2 MapReduce简单模型 79
5.2.3 MapReduce复杂模型 80
5.2.4 MapReduce编程实例——
WordCount 81
5.3 MapReduce数据流 82
5.3.1 分片并格式化原始数据
(InputFormat) 82
5.3.2 Map过程 84
5.3.3 Shuffle过程 84
5.3.4 Reduce过程 89
5.3.5 按指定格式写入文件
(OutputFormat) 89
5.4 MapReduce任务流程 90
5.5 MapReduce的Streaming和
Pipe 91
5.5.1 Hadoop Streaming 91
5.5.2 Hadoop Pipe 92
5.6 MapReduce性能调优 94
5.7 MapReduce实战 96
5.7.1 快速入门 96
5.7.2 简单使用Eclipse插件 107
习题 115
第6章
Hadoop I/O操作 116
6.1 HDFS数据完整性 116
6.1.1 校验和 116
6.1.2 运行后台进程来检测数据块 117
6.2 基于文件的数据结构 118
6.2.1 SequenceFile的存储 118
6.2.2 MapFile的存储 122
6.2.3 SequenceFile转换为MapFile 124
6.3 压缩 125
6.3.1 认识压缩 126
6.3.2 Codec 126
6.3.3 本地库 128
6.3.4 如何选择压缩格式 129
6.4 序列化 130
6.4.1 认识序列化 130
6.4.2 Writable接口 131
6.4.3 WritableComparable接口 132
6.4.4 Hadoop Writable基本类型 133
6.4.5 自定义Writable类型 138
习题 139
第7章
海量数据库技术HBase 140
7.1 初识HBase 140
7.2 HBase表视图 141
7.2.1 概念视图 141
7.2.2 物理视图 142
7.3 HBase物理存储模型 143
7.4 安装HBase 149
7.4.1 HBase单节点安装 149
7.4.2 HBase伪分布式安装 151
7.4.3 HBase完全分布式安装 152
7.5 HBase Shell 154
7.5.1 HBase Shell的命令 154
7.5.2 general操作 156
7.5.3 DDL操作 157
7.5.4 DML操作 159
习题 161
第8章
ZooKeeper技术 162
8.1 分布式协调技术及其实现者 162
8.1.1 分布式协调技术 162
8.1.2 实现者 163
8.2 ZooKeeper基本架构 163
8.2.1 角色 163
8.2.2 选举机制 164
8.3 ZooKeeper数据模型 164
8.3.1 Znode 164
8.3.2 ZooKeeper中的时间 165
8.3.3 ZooKeeper节点属性 166
8.3.4 watch触发器 166
8.4 ZooKeeper集群安装 168
8.5 ZooKeeper的主要Shell
操作 169
8.6 典型运用场景 171
8.6.1 数据发布与订阅 171
8.6.2 统一命名服务 172
8.6.3 分布通知/协调 172
习题 173
第9章
分布式数据仓库技术Hive 174
9.1 Hive出现的原因 174
9.2 Hive服务的组成 174
9.3 Hive的安装 176
9.3.1 Hive基本安装 176
9.3.2 MySQL的安装 176
9.3.3 Hive的配置 177
9.4 Hive Shell 180
9.5 HQL 181
9.5.1 认识HQL 181
9.5.2 Hive管理数据方式 182
9.5.3 Hive表的DDL操作 183
9.5.4 Hive表的DML操作 192
习题 196
第 10章
分布式数据分析工具Pig 197
10.1 Pig的安装和配置 197
10.2 Pig的基本概念 198
10.3 Pig的保留关键字 199
10.4 使用Pig 201
10.4.1 Pig命令行选项 201
10.4.2 Pig的运行模式 202
10.4.3 Pig相关Shell命令 202
10.4.4 Pig程序运行方式 206
10.4.5 Pig的输入与输出 208
10.5 Pig模式(Schemas) 210
10.6 Pig相关函数 217
习题 221
第 11章
Hadoop与RDBMS数据迁移
工具Sqoop 222
11.1 Sqoop简介及基本安装 222
11.2 Sqoop的配置 223
11.3 Sqoop的相关功能 224
11.3.1 Sqoop的工具命令 224
11.3.2 Sqoop与MySQL 225
11.3.3 sqoop-import操作 226
11.3.4 sqoop-import-all-tables
操作 231
11.3.5 sqoop-export操作 232
11.3.6 sqoop-list-databases和
sqoop-list-tables操作 234
11.4 Hive、Pig和Sqoop三者
之间的关系 235
习题 236
第 12章
大数据实时处理技术 237
12.1 Storm大数据实时处理技术 237
12.1.1 Apache Storm的组成结构 237
12.1.2 数据流与分组 238
12.1.3 Storm-Yarn产生的背景 240
12.1.4 Storm-Yarn的功能 240
12.2 Spark大数据实时处理技术 241
12.2.1 Apache Spark架构 241
12.2.2 Apache Spark的扩展功能 243
12.3 Storm与Spark的异同 245
习题 246
附录A
使用Eclipse提交Hadoop
任务时相关错误的修复 247
附录B
常用Pig内置函数 249
Hadoop大数据处理技术基础与实践(第2版)(微课版)(本科教材) 作者简介
安俊秀,教授,成都信息工程大学教师。2004年7月从西安交通大学计算机科学与技术专业毕业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。 在教学上,严格要求自己,勤奋钻研、不断提升教学水平,给更多学生以帮助和爱护。于1993年毕业进入山西大学商务学院任教,2006年底调入成都信息工程大学任教。最近三年,先后承担了《Linux体系和编程》、《软件项目管理》、《工程导论》、《计算机组成原理》等本科课程;承担了《云计算与大数据》、《并行计算》、《Hadoop处理技术》等研究生课程,学校考核均为优。 在科研工作方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近三年发表论文20余篇,其中第一作者10余篇,核心期刊以上占5篇。独立完成专著1部,编著教材1部和参与编著教材1部,主编教材1部。获得国家发明专利2项(2014授权),实用新型专利授权12项。获得软件著作权13项。科研项目10项。2015年获四川省社科高水平研究团队称号。
- >
巴金-再思录
巴金-再思录
¥14.7¥46.0 - >
诗经-先民的歌唱
诗经-先民的歌唱
¥18.7¥39.8 - >
龙榆生:词曲概论/大家小书
龙榆生:词曲概论/大家小书
¥7.7¥24.0 - >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥17.4¥58.0 - >
莉莉和章鱼
莉莉和章鱼
¥19.7¥42.0 - >
自卑与超越
自卑与超越
¥13.5¥39.8 - >
唐代进士录
唐代进士录
¥15.1¥39.8 - >
随园食单
随园食单
¥21.6¥48.0
-
Photoshop 2022中文版案例教程
¥44.1¥59.8 -
局域网组建、管理与维护(第4版)(微课版)
¥47¥59 -
园林AUTOCAD教程
¥24¥45 -
Python实战编程:从零学Python
¥81¥108 -
Java程序设计基础
¥37¥50 -
数据备份与恢复
¥51.4¥69