大数据开发实战 版权信息
- ISBN:9787111756934
- 条形码:9787111756934 ; 978-7-111-75693-4
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 所属分类:>>
大数据开发实战 本书特色
本书深入讲解大数据技术的核心概念和实际应用。
配套资源丰富,附赠
●长达13个小时的部分实例操作视频
●全书实例源代码
●电子版本教程
●PPT
大数据开发实战 内容简介
本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。*后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。
本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
大数据开发实战 目录
前言环境搭建视频教程二维码清单第1章大数据简介1.1大数据的概述1.2大数据的特点1.3大数据的应用领域1.4目前企业应用的主流大数据技术1.5大数据开发流程第2章大数据基础架构Hadoop2.1Hadoop简介2.2Hadoop架构详解2.2.1分布式存储系统HDFS2.2.2分布式资源管理框架YARN2.2.3离线计算框架MapReduce前言环境搭建视频教程二维码清单第1章大数据简介1.1大数据的概述1.2大数据的特点1.3大数据的应用领域1.4目前企业应用的主流大数据技术1.5大数据开发流程第2章大数据基础架构Hadoop2.1Hadoop简介2.2Hadoop架构详解2.2.1分布式存储系统HDFS2.2.2分布式资源管理框架YARN2.2.3离线计算框架MapReduce2.3HDFS读、写文件流程2.3.1HDFS写文件流程2.3.2HDFS读文件流程2.4HDFS的实战操作2.4.1HDFS上传文件2.4.2HDFS创建文件2.4.3HDFS创建目录2.4.4HDFS重命名文件2.4.5HDFS删除文件2.5YARN原理2.6YARN调度器详解2.7MapReduce工作原理2.8MapReduce核心的原理Shuffle2.8.1Map端2.8.2Reduce端2.9MapReduce常用三大组件2.9.1MapReduce中的Partitioner2.9.2MapReduce中的Sort2.9.3MapReduce中的Combiner2.10MapReduce项目实战2.10.1清洗日志2.10.2统计电影*高评分第3章分布式协调服务Zookeeper3.1ZooKeeper简介3.2ZooKeeper结构和工作原理3.2.1ZooKeeper集群角色3.2.2ZooKeeper的数据结构3.2.3ZooKeeper的工作流程3.2.4ZooKeeper的监听器3.3ZooKeeper实战3.3.1ZooKeeper创建持久节点3.3.2ZooKeeper创建临时节点3.3.3ZooKeeper递归创建节点3.3.4ZooKeeper读取数据3.3.5ZooKeeper更新数据3.3.6ZooKeeper监听节点3.3.7ZooKeeper监听子节点3.3.8ZooKeeper实现服务注册与发现第4章数据仓库Hive4.1Hive简介和特点4.2Hive结构和原理4.2.1Hive结构4.2.2Hive运行的流程4.2.3Hive的HQL转换过程4.3电商用户行为分析4.3.1项目背景及目的4.3.2数据导入4.3.3数据清洗4.3.4数据分析第5章面向列的数据库HBase5.1HBase简介5.2HBase架构5.2.1HBase的组件5.2.2HBase工作机制5.3HBase数据模型5.4HBase读写流程5.4.1HBase写操作流程5.4.2HBase读操作流程5.5HBase的API示例5.5.1HBase创建表5.5.2HBase保持数据5.5.3HBase更新数据5.5.4HBase获取数据5.5.5HBase删除数据5.5.6使用HBase获取某一行数据5.6HBase存储订单案例第6章大数据开发实战数据迁移工具Sqoop6.1Sqoop架构和工作原理6.1.1Sqoop导入原理6.1.2Sqoop导出原理6.2Sqoop将HDFS数据导入MySQL6.3Sqoop将MySQL数据导入HDFS第7章数据采集工具Flume7.1Flume简介7.2Flume构成和工作原理7.2.1Flume构成7.2.2Flume工作原理7.3Flume实战7.3.1Flume监听目录实战7.3.2Flume一对多实战7.3.3Flume拦截器实战7.3.4Flume采集数据到HDFS7.3.5Kafka对接Flume实战第8章发布订阅消息系统Kafka8.1Kafka 简介8.2Kafka的消息生产者8.2.1Kafka生产者的运行流程8.2.2Kafka生产者分区8.2.3副本的同步复制和异步复制8.2.4Kafka消息发送确认机制8.3Kafka的Broker保存消息8.3.1存储方式与策略8.3.2Topic创建与删除8.4Kafka的消息消费者8.4.1消费机制8.4.2消费者组8.5Kafka 的存储机制8.5.1Kafka主题Topic8.5.2Kafka分片Partition8.5.3Kafka日志Segment File8.6Kafka 实战8.6.1Kafka发送消息8.6.2Kafka自定义分区发送消息8.6.3Spring Boot整合Kafka发送消息第9章数据处理分析引擎Spark9.1Spark 简介9.2Spark 运行原理9.2.1Spark的基本概念9.2.2Spark运行的原理9.2.3Driver运行在Client9.2.4Driver运行在Worker节点9.3Spark算子RDD9.3.1RDD的属性9.3.2RDD的依赖关系9.3.3RDD的shuffle过程9.3.4RDD的缓存和检查机制9.4Spark SQL9.4.1Spark SQL概念9.4.2Spark SQL的架构9.4.3DataSets和DataFrames9.4.4Spark SQL示例9.5Spark Streaming9.5.1Spark Streaming介绍/9.5.2DStream转换操作9.5.3Spark Streaming窗口操作9.5.4DStream输入9.5.5DStream 输出9.5.6DSFrame和SQL操作9.5.7Spark Streaming检查点9.6Spark Streaming接收Flume数据实战9.7Spark Streaming接收Kafka数据实战第10章全文搜索引擎Elasticsearch10.1Elasticsearch简介10.2Elasticsearch架构和原理10.2.1Elasticsearch核心概念10.2.2Elasticsearch工作原理10.2.3Elasticsearch倒排索引10.3Elasticsearch实战10.3.1Elasticsearch索引创建10.3.2Elasticsearch索引更新10.3.3Elasticsearch索引查询10.3.4Elasticsearch索引删除10.3.5Elasticsearch保存文档10.3.6Elasticsearch更新文档10.3.7Elasticsearch精确查询10.3.8Elasticsearch模糊查询10.3.9Elasticsearch范围查询10.3.10Elasticsearch布尔查询10.3.11Elasticsearch聚合查询10.3.12Elasticsearch高亮查询10.4Elasticsearch实现搜索系统10.4.1搜索系统项目环境准备10.4.2Elasticsearch实现搜索功能第11章分布式处理引擎Flink11.1Flink 概述11.2Flink基本组件和运行时架构11.2.1Flink运行时架构11.2.2Flink的分层11.3Flink流处理流程11.3.1Flink环境设置(Environment)11.3.2Flink源算子(Source)11.3.3Flink支持的数据类型11.3.4
展开全部
大数据开发实战 作者简介
韦宇杰, 毕业于华南理工大学广州学院,获得了机械工程及自动化的学士学位,一位融合机械工程与自动化专业背景的资深程序员。作为一名资深程序员,在大数据领域深耕多年,积累了丰富的实战经验。他精通从数据采集、清洗、存储到分析的全链条技术,擅长运用最前沿的工具和框架解决复杂的数据处理问题,让庞大的数据集在他的手中焕发出前所未有的价值。他的职业生涯跨越了多个领域,不仅在大数据处理和系统开发方面表现出色,更在算法设计和模型构建上拥有深厚的专业知识。在数据处理、算法设计以及系统优化方面积累了丰富的经验。他曾参与华为的应用系统经营分析系统的研发工作,期间他充分发挥了自己的算法训练和模型设计能力,为项目的成功贡献了关键的技术支持。这段经历不仅证明了他在大数据处理领域的实力,也彰显了他在算法和模型构建方面的专业素养。作为一位对技术充满热情的程序员,他深耕细作,苦练编程,善于总结,慢慢的形成了个人的编程风格,在数据处理、算法、系统布局等方面有自己独特的见解和处理方式。本书是作者多年工作经验的总结,以最贴近实际的案例帮助读者更容易,更轻松,更深入地了解大数据开发。