-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
大数据技术体系详解原理.架构与实践 版权信息
- ISBN:9787111590729
- 条形码:9787111590729 ; 978-7-111-59072-9
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>>
大数据技术体系详解原理.架构与实践 本书特色
本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架不可多得的参考书。本章主要包括6个部分共16章的内容,其中:第壹部分介绍了大数据体系架构,以及Google和Hadoop技术栈;第二部分介绍大数据分析相关技术,主要涉及关系型数据收集工具Sqoop与Canel、非关系型数据收集系统Flume以及分布式消息队列Kafka;第三部分介绍大数据存储相关技术,涉及数据存储格式、分布式文件系统以及分布式数据库;第四部分介绍资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统ZooKeeper;第五部分介绍计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎;第六部分数据分析相关技术,涉及基于数据分析语言HQL与SQL、大数据统一编程模型及机器学习库等。
大数据技术体系详解原理.架构与实践 内容简介
本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架不可多得的参考书。本章主要包括6个部分共16章的内容,其中:第壹部分介绍了大数据体系架构,以及Google和Hadoop技术栈;第二部分介绍大数据分析相关技术,主要涉及关系型数据收集工具Sqoop与Canel、非关系型数据收集系统Flume以及分布式消息队列Kafka;第三部分介绍大数据存储相关技术,涉及数据存储格式、分布式文件系统以及分布式数据库;第四部分介绍资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统ZooKeeper;第五部分介绍计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎;第六部分数据分析相关技术,涉及基于数据分析语言HQL与SQL、大数据统一编程模型及机器学习库等。
大数据技术体系详解原理.架构与实践 目录
前 言
**部分 概述篇
第1章 企业级大数据技术体系概述 2
1.1 大数据系统产生背景及应用场景 2
1.1.1 产生背景 2
1.1.2 常见大数据应用场景 3
1.2 企业级大数据技术框架 5
1.2.1 数据收集层 6
1.2.2 数据存储层 7
1.2.3 资源管理与服务协调层 7
1.2.4 计算引擎层 8
1.2.5 数据分析层 9
1.2.6 数据可视化层 9
1.3 企业级大数据技术实现方案 9
1.3.1 Google大数据技术栈 10
1.3.2 Hadoop与Spark开源大数据技术栈 12
1.4 大数据架构:Lambda Architecture 15
1.5 Hadoop与Spark版本选择及安装部署 16
1.5.1 Hadoop与Spark版本选择 16
1.5.2 Hadoop与Spark安装部署 17
1.6 小结 18
1.7 本章问题 18
第二部分 数据收集篇
第2章 关系型数据的收集 20
2.1 Sqoop概述 20
2.1.1 设计动机 20
2.1.2 Sqoop基本思想及特点 21
2.2 Sqoop基本架构 21
2.2.1 Sqoop1基本架构 22
2.2.2 Sqoop2基本架构 23
2.2.3 Sqoop1与Sqoop2对比 24
2.3 Sqoop使用方式 25
2.3.1 Sqoop1使用方式 25
2.3.2 Sqoop2使用方式 28
2.4 数据增量收集CDC 31
2.4.1 CDC动机与应用场景 31
2.4.2 CDC开源实现Canal 32
2.4.3 多机房数据同步系统Otter 33
2.5 小结 35
2.6 本章问题 35
第3章 非关系型数据的收集 36
3.1 概述 36
3.1.1 Flume设计动机 36
3.1.2 Flume基本思想及特点 37
3.2 Flume NG基本架构 38
3.2.1 Flume NG基本架构 38
3.2.2 Flume NG高级组件 41
3.3 Flume NG数据流拓扑构建方法 42
3.3.1 如何构建数据流拓扑 42
3.3.2 数据流拓扑实例剖析 46
3.4 小结 50
3.5 本章问题 50
第4章 分布式消息队列Kafka 51
4.1 概述 51
4.1.1 Kafka设计动机 51
4.1.2 Kafka特点 53
4.2 Kafka设计架构 53
4.2.1 Kafka基本架构 54
4.2.2 Kafka各组件详解 54
4.2.3 Kafka关键技术点 58
4.3 Kafka程序设计 60
4.3.1 Producer程序设计 61
4.3.2 Consumer程序设计 63
4.3.3 开源Producer与Consumer实现 65
4.4 Kafka典型应用场景 65
4.5 小结 67
4.6 本章问题 67
第三部分 数据存储篇
第5章 数据序列化与文件存储格式 70
5.1 数据序列化的意义 70
5.2 数据序列化方案 72
5.2.1 序列化框架Thrift 72
5.2.2 序列化框架Protobuf 74
5.2.3 序列化框架Avro 76
5.2.4 序列化框架对比 78
5.3 文件存储格式剖析 79
5.3.1 行存储与列存储 79
5.3.2 行式存储格式 80
5.3.3 列式存储格式ORC、Parquet与CarbonData 82
5.4 小结 88
5.5 本章问题 89
第6章 分布式文件系统 90
6.1 背景 90
6.2 文件级别和块级别的分布式文件系统 91
6.2.1 文件级别的分布式系统 91
6.2.2 块级别的分布式系统 92
6.3 HDFS基本架构 93
6.4 HDFS关键技术 94
6.4.1 容错性设计 95
6.4.2 副本放置策略 95
6.4.3 异构存储介质 96
6.4.4 集中式缓存管理 97
6.5 HDFS访问方式 98
6.5.1 HDFS shell 98
6.5.2 HDFS API 100
6.5.3 数据收集组件 101
6.5.4 计算引擎 102
6.6 小结 102
6.7 本章问题 103
第7章 分布式结构化存储系统 104
7.1 背景 104
7.2 HBase数据模型 105
7.2.1 逻辑数据模型 105
7.2.2 物理数据存储 107
7.3 HBase基本架构 108
7.3.1 HBase基本架构 108
7.3.2 HBase内部原理 110
7.4 HBase访问方式 114
7.4.1 HBase shell 114
7.4.2 HBase API 116
7.4.3 数据收集组件 118
7.4.4 计算引擎 119
7.4.5 Apache Phoenix 119
7.5 HBase应用案例 120
7.5.1 社交关系数据存储 120
7.5.2 时间序列数据库OpenTSDB 122
7.6 分布式列式存储系统Kudu 125
7.6.1 Kudu基本特点 125
7.6.2 Kudu数据模型与架构 126
7.6.3 HBase与Kudu对比 126
7.7 小结 127
7.8 本章问题 127
第四部分 分布式协调与资源管理篇
第8章 分布式协调服务ZooKeeper 130
8.1 分布式协调服务的存在意义 130
8.1.1 leader选举 130
8.1.2 负载均衡 131
8.2 ZooKeeper数据模型 132
8.3 ZooKeeper基本架构 133
8.4 ZooKeeper程序设计 134
8.4.1 ZooKeeper API 135
8.4.2 Apache Curator 139
8.5 ZooKeeper应用案例 142
8.5.1 leader选举 142
8.5.2 分布式队列 143
8.5.3 负载均衡 143
8.6 小结 144
8.7 本章问题 145
第9章 资源管理与调度系统YARN 146
9.1 YARN产生背景 146
9.1.1 MRv1局限性 146
9.1.2 YARN设计动机 147
9.2 YARN设计思想 148
9.3 YARN的基本架构与原理 149
9.3.1 YARN基本架构 149
9.3.2 YARN高可用 152
9.3.3 YARN工作流程 153
9.4 YARN资源调度器 155
9.4.1 层级队列管理机制 155
9.4.2 多租户资源调度器产生背景 156
9.4.3 Capacity/Fair Scheduler 157
9.4.4 基于节点标签的调度 160
9.4.5 资源抢占
大数据技术体系详解原理.架构与实践 作者简介
董西成,资深大数据技术实践者和研究者,对大数据基础架构有非常深刻的认识和理解,有着丰富的实践经验。熟悉常见的开源大数据解决方案,包括Hadoop和spark生态系统等,擅长底层分布式系统的优化和开发。撰写了大量Had00p和spark等大数据相关的技术文章并分享在自己的博客上,由于文章技术含量高,所以非常受欢迎。 出版有大数据领域负有盛名的专著:《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Had00p技术内幕:深入解析YARN架构设计与实现原理》。 个人博客:http://dongxicheng.Org/(大量关于Hadoop的干货分享) 微信公众账号:hadoopl23(大量关于大数据最新资讯和干货分享) 如果想了解更多关于本书的内容,可访问:http://hadoopl23.com/
- >
姑妈的宝刀
姑妈的宝刀
¥13.5¥30.0 - >
月亮虎
月亮虎
¥19.7¥48.0 - >
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
¥9.9¥23.0 - >
朝闻道
朝闻道
¥15.0¥23.8 - >
名家带你读鲁迅:朝花夕拾
名家带你读鲁迅:朝花夕拾
¥10.5¥21.0 - >
推拿
推拿
¥12.2¥32.0 - >
巴金-再思录
巴金-再思录
¥14.7¥46.0 - >
经典常谈
经典常谈
¥28.3¥39.8
-
网络工程师教程(第2版)
¥69.3¥99 -
Python 数据分析基础
¥41¥69 -
Python 3.5从零开始学
¥26.4¥59 -
虚拟化与容器技术
¥49.9¥69.8 -
UG NX 11.0工程图教程-(含1DVD)
¥30.4¥59.9 -
程序设计语言编译原理(第3版)
¥25.4¥39