-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
大数据技术基础 版权信息
- ISBN:9787563558780
- 条形码:9787563558780 ; 978-7-5635-5878-0
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 所属分类:>
大数据技术基础 本书特色
本书围绕大数据技术基础,重点介绍了大数据存储系统(分布式文件系统和NoSQL数据库)、大数据处理框架(Hadoop的MapReduce、Spark及实时处理框架Storm和Flink)、大数据仓库技术(Hive、Druid等)、大数据多维分析(Kylin)、大数据可视化技术和大数据综合应用等,以及当今主流的大数据平台构建技术和开源组件实践知识,可以指导读者全面、系统地掌握大数据各层的实现方案,开展各领域的大数据实践。本书可作为计算机学科相关专业,特别是数据科学与大数据技术专业的教材。
大数据技术基础 内容简介
本书系统的介绍了大数据相关技术。通过介绍其基本原理和主要应用, 旨在构建大数据知识体系、阐明大数据基本原理、引导大数据基本实践、介绍大数据相关应用。
大数据技术基础 目录
本章思维导图1
1.1大数据简介2
1.1.1大数据的发展历程2
1.1.2大数据的定义与特征2
1.1.3大数据与传统数据的区别3
1.2大数据平台应具备的能力3
1.3大数据平台架构5
1.4Hadoop生态系统8
1.5大数据应用10
1.5.1互联网大数据应用10
1.5.2金融行业大数据应用10
1.5.3医疗行业大数据应用11
1.5.4智慧交通大数据应用11
本章课后习题12
本章参考文献12
第2章大数据存储——分布式文件系统及NoSQL数据库14
本章思维导图14
2.1分布式文件系统15
2.1.1HDFS相关概念15
2.1.2HDFS体系结构16
2.1.3HDFS存储机制18
2.1.4HDFS读/写操作20
2.1.5HDFS数据导入21
2.2NoSQL数据库22
2.2.1KeyValue模型22
2.2.2KeyDocument 模型23
2.2.3KeyColumn模型24
2.2.4图模型25
2.3列族数据库25
2.3.1列族数据库简介25
2.3.2HBase的基本原理26
2.3.3HBase的数据模型30
2.4键值数据库33
2.4.1键值数据库简介33
2.4.2选择键值数据库的原因33
2.4.3Redis的数据结构简介34
2.4.4Redis的数据持久化36
2.4.5Redis的数据复制37
2.5文档数据库38
2.5.1文档数据库简介38
2.5.2MongoDB的数据类型39
2.5.3MongoDB的数据复制40
2.6图数据库42
2.6.1图数据库简介42
2.6.2图数据库的优势43
2.6.3Neo4j的基本元素与概念44
2.6.4Cypher简介46
本章课后习题47
本章参考文献47
第3章大数据处理——MapReduce处理框架48
本章思维导图48
3.1MapReduce的发展背景49
3.2MapReduce框架50
3.3MapReduce的编程模型52
3.3.1MapReduce初析52
3.3.2MapReduce的运行机制57
3.3.3MapReduce的相关问题59
3.4MapReduce的集群调度60
3.4.1Hadoop1.x的传统集群调度框架60
3.4.2Hadoop2.x的集群调度框架YARN61
3.4.3Hadoop作业调度器64
本章课后习题67
本章参考文献67
第4章大数据处理——分布式内存处理框架Spark 68
本章思维导图68
4.1Spark简介69
4.1.1Spark介绍69
4.1.2提出Spark的原因70
4.1.3Spark中的关键术语70
4.1.4Spark的优点71
4.2Spark框架72
4.2.1Spark框架图72
4.2.2Spark运行图73
4.2.3Spark任务调度方法73
4.3RDD概念理解74
4.3.1RDD介绍74
4.3.2RDD的操作75
4.3.3RDD的存储75
4.3.4RDD分区76
4.3.5RDD优先位置76
4.3.6RDD依赖关系76
4.4RDD操作78
4.4.1RDD创建78
4.4.2转换操作78
4.4.3行动操作80
4.5Scala语言81
4.5.1Scala介绍81
4.5.2Scala基本语法82
4.5.3Scala编写Spark示例86
4.6Spark SQL简介86
4.6.1Spark SQL与Shark的对比86
4.6.2Spark SQL的优势87
4.6.3Spark SQL生态87
4.7MLlib简介88
4.7.1MLlib介绍88
4.7.2MLlib支持机器学习算法88
本章课后习题89
本章参考文献89
第5章大数据处理——实时处理框架90
本章思维导图90
5.1实时处理架构91
5.1.1基本概念91
5.1.2批量和流式计算92
5.1.3系统生态简介92
5.2Storm框架93
5.2.1Storm的基本术语和概念93
5.2.2Storm特性及运行原理94
5.2.3消息的生命周期95
5.2.4消息的可靠性保障96
5.3Flume分布式日志收集98
5.3.1Flume的基本术语和概念98
5.3.2源99
5.3.3通道100
5.3.4接收器100
5.4Kafka分布式消息队列101
5.4.1Kafka的基本术语和概念102
5.4.2生产者103
5.4.3消费者104
5.4.4数据传递的可靠性保障105
5.5Spark Streaming框架107
5.5.1Spark Streaming架构107
5.5.2输入数据源108
5.5.3DStream的转换操作108
5.5.4输出存储110
5.5.5容错机制110
5.6Flink框架112
5.6.1Flink架构112
5.6.2Client112
5.6.3JobManager113
5.6.4TaskManager114
本章课后习题115
本章参考文献115
第6章大数据查询——分布式数据查询116
本章思维导图116
6.1分布式数据查询简介117
6.2Hive分布式数据仓库118
6.2.1Hive概述118
6.2.2Hive内部介绍118
6.2.3Hive架构介绍119
6.2.4HiveQL:数据定义119
6.2.5HiveQL:数据导入121
6.2.6HiveQL:查询123
6.3Druid时序数据仓储129
6.3.1Druid概述129
6.3.2架构详解132
6.3.3数据摄入135
6.3.4数据查询141
6.4Drill分布式实时查询156
6.4.1使用Apache Drill的原因156
6.4.2Drill架构与原理157
6.4.3Drill核心模块160
6.4.4使用Drill实现查询161
本章课后习题168
本章参考文献168
第7章大数据分析——Kylin分布式多维数据分析170
本章思维导图170
7.1使用Apache Kylin的原因171
7.2Kylin学习的前奏172
7.2.1数据仓库的概念与产生需求172
7.2.2数据仓库与数据分析型系统174
7.2.3多维数据分析175
7.2.4OLAP与数据立方体176
7.3Kylin工作原理178
7.3.1Cube与Cuboid178
7.3.2工作流程178
7.4Kylin架构179
7.5Kylin快速入门181
7.5.1在Hive中准备数据181
7.5.2设计数据模型181
7.5.3创建Cube183
7.5.4构建Cube186
7.5.5查询Cube188
7.6增量构建188
7.6.1设计增量Cube189
7.6.2触发增量构建190
7.6.3管理Cube碎片190
7.7查询和可视化192
7.7.1Web GUI192
7.7.2Rest API194
7.7.3ODBC197
7.7.4通过Tableau访问Kylin197
7.8Cube优化201
本章课后习题204
本章参考文献204
第8章数据可视化205
本章思维导图205
8.1数据可视化定义及分类206
8.1.1数据可视化定义206
8.1.2数据可视化分类206
8.2数据可视化基础208
8.2.1数据可视化流程208
8.2.2可视化中的数据209
8.2.3可视化的基本图表210
8.2.4视图的交互211
8.3信息可视化分类212
8.3.1时空数据可视化212
8.3.2层次和网络数据可视化213
8.3.3文本和文档可视化214
8.4在商业智能中的数据可视化应用214
8.4.1商业智能可视化的基本元素215
8.4.2仪表盘的设计准则215
8.5数据可视化的实现216
8.5.1数据可视化工具216
8.5.2ECharts217
8.5.3Plotly218
本章课后习题220
本章参考文献221
第9章大数据应用系统案例——互联网应用大数据系统构建222
本章思维导图222
9.1互联网业务背景介绍223
9.2案例的大数据平台技术体系架构223
9.2.1数据采集224
9.2.2数据存储226
9.2.3数据计算227
9.2.4数据应用229
本章课后习题230
本章参考文献230
大数据技术基础 作者简介
鄂海红,博士,北京邮电大学计算机学院 副教授;科技部现代服务业共性服务联盟,副秘书长;中国通信标准化协会TC11-WG1副组长。长期从事大数据工程与数据分析、机器学习与人工智能服务、云计算与分布式系统领域的研究工作,有扎实宽广的理论基础和科研项目实践能力。作为课题负责人及主研人,完成科研项目累计34项(其中,国家级课题13项),累计发表SCI/EI论文62篇;申请国家发明专利34项,软著登记25项;正式发布国家行业标准16项。曾获得省部级特等奖奖励 “中国服务业科技创新奖”,教育部“高等学校科学研究优秀成果奖”二等奖、“中国通信标准化协会科学技术奖”三等奖;教育部博士点基金资助;北京市“青年英才计划”首批资助。
- >
唐代进士录
唐代进士录
¥18.3¥39.8 - >
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
¥6.9¥16.0 - >
姑妈的宝刀
姑妈的宝刀
¥9.9¥30.0 - >
中国历史的瞬间
中国历史的瞬间
¥16.7¥38.0 - >
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
¥17.6¥55.0 - >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥17.4¥58.0 - >
莉莉和章鱼
莉莉和章鱼
¥14.3¥42.0 - >
我与地坛
我与地坛
¥20.2¥28.0
-
”互联网+“时代计算机算法的应用及其实践研究
¥19.9¥59 -
微服务设计
¥52.8¥69 -
图说深度学习:用可视化方法理解复杂概念
¥109¥188 -
计算机基础
¥17.2¥31 -
改变未来的九大算法
¥50¥68 -
生成式AI入门与AWS实战
¥77.8¥99.8