欢迎光临中图网 请 | 注册
> >>
基于新信息技术的HADOOP大数据技术

基于新信息技术的HADOOP大数据技术

作者:何永亚
出版社:西安电子科技大学出版社出版时间:2023-09-01
开本: 其他 页数: 232
本类榜单:教材销量榜
中 图 价:¥30.8(7.0折) 定价  ¥44.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>
微信公众号

基于新信息技术的HADOOP大数据技术 版权信息

基于新信息技术的HADOOP大数据技术 内容简介

本书面向Hadoop大数据技术,通过大量实例,循序渐进地介绍了Hadoop生态系统常用组件的安装及使用方法。 全书共15个项目,主要内容包括:在虚拟机中安装CentOS 7、安装Hadoop伪分布、配置平台基础环境、搭建Zookeeper分布式集群、搭建HDFS分布式集群、搭建YARN分布式集群、Hadoop分布式计算框架(MapReduce)、Hive的安装与部署、Hive常用命令的使用、搭建HBase分布式集群、Sqoop的安装与部署、Flume的安装与使用、搭建Kafka分布式集群、Davinci的安装与部署以及互联网金融项目的离线分析。本书内容由浅入深,涵盖了Hadoop大数据生态系统的各个主要知识点。 本书内容翔实,通俗易懂,可作为大数据初学者的学习教材,也可作为大数据应用开发人员的参考书。

基于新信息技术的HADOOP大数据技术 目录

项目一 在虚拟机中安装CentOS 7 1 1.1 Linux概述 1 1.1.1 Linux操作系统简介 1 1.1.2 Linux操作系统的应用场景 1 1.1.3 Linux版本 2 1.2 Linux的常用命令 2 1.2.1 ls命令 2 1.2.2 cd命令 3 1.2.3 pwd命令 3 1.2.4 mkdir 命令 3 1.2.5 rm命令 4 1.2.6 rmdir命令 4 1.2.7 mv命令 4 1.2.8 cp命令 5 1.2.9 cat命令 5 1.2.10 head命令 5 1.2.11 chmod命令 5 1.2.12 chown命令 6 1.2.13 ln命令 7 1.2.14 date命令 8 1.2.15 kill命令 9 1.3 VMware Workstation的安装与部署 9 1.4 创建虚拟机 14 1.5 安装CentOS 7系统 21 项目二 安装Hadoop伪分布 29 2.1 大数据概述 29 2.1.1 什么是大数据 29 2.1.2 Hadoop是什么 29 2.1.3 Hadoop项目起源 30 2.1.4 Hadoop的发展历程 30 2.1.5 Hadoop名字起源 30 2.1.6 Hadoop的优势 30 2.1.7 Hadoop的应用领域 31 2.1.8 Hadoop与云计算 31 2.1.9 Hadoop与Spark 32 2.1.10 Hadoop与关系型数据库 管理系统 34 2.2 配置静态IP地址 35 2.3 Xshell连接工具 37 2.4 FileZilla传输工具 41 2.5 配置主机名和IP地址的映射 42 2.6 关闭Linux防火墙 42 2.7 创建Linux的用户和用户组 43 2.8 Linux SSH免密登录 44 2.9 JDK的安装与配置 45 2.10 Hadoop的安装与配置 46 项目三 配置平台基础环境 52 3.1 Linux虚拟机的克隆 52 3.2 配置静态IP地址 54 3.3 Xshell连接克隆虚拟机 56 3.4 修改克隆虚拟机主机名 57 3.5 关闭克隆虚拟机防火墙 57 3.6 FileZilla连接克隆虚拟机 58 3.7 Hadoop集群安装前的准备工作 58 项目四 搭建Zookeeper分布式集群 66 4.1 Zookeeper概述 66 4.1.1 Zookeeper的特点 66 4.1.2 Zookeeper的基本架构与 工作原理 67 4.1.3 Zookeeper的数据模型 67 4.1.4 Znode的特性 68 4.1.5 监听机制 68 4.2 Zookeeper集群的安装与配置 68 4.3 Zookeeper Shell的常用操作 72 项目五 搭建HDFS分布式集群 73 5.1 HDFS的架构设计与工作原理 73 5.1.1 HDFS是什么 73 5.1.2 HDFS的产生背景 73 5.1.3 HDFS的设计理念 74 5.1.4 HDFS的核心设计目标 74 5.1.5 HDFS的系统架构 74 5.1.6 HDFS的优缺点 76 5.1.7 HDFS读数据流程 76 5.1.8 HDFS写数据流程 77 5.1.9 HDFS的高可用机制及架构 78 5.2 HDFS集群的安装与配置 79 5.3 HDFS集群服务的启动 82 5.4 测试HDFS集群 83 5.5 HDFS Shell的操作命令 85 5.5.1 HDFS Shell的基本操作命令 85 5.5.2 HDFS Shell的管理员操作命令 85 项目六 搭建YARN分布式集群 87 6.1 YARN的架构设计与工作原理 87 6.1.1 YARN是什么 87 6.1.2 YARN的作用 87 6.1.3 YARN的基本构架 88 6.1.4 YARN的工作原理 89 6.1.5 YARN的工作流程 89 6.1.6 YARN的高可用机制 90 6.1.7 YARN的调度器 91 6.2 YARN集群的配置 91 6.3 YARN集群服务的启动 94 6.4 YARN集群的测试 95 6.5 Hadoop集群的运维管理 96 6.5.1 Hadoop集群进程的管理 97 6.5.2 Hadoop集群的运维技巧 99 项目七 Hadoop分布式计算框架 (MapReduce) 103 7.1 初识MapReduce 103 7.1.1 MapReduce概述 103 7.1.2 MapReduce的基本设计思想 104 7.1.3 MapReduce的优缺点 105 7.2 MapReduce编程模型 106 7.2.1 MapReduce的执行步骤 106 7.2.2 深入剖析MapReduce 编程模型 107 项目八 Hive的安装与部署 111 8.1 Hive概述 111 8.1.1 Hive的定义 111 8.1.2 Hive的产生背景 111 8.1.3 Hive的优缺点 111 8.1.4 Hive在Hadoop生态系统中的 位置 112 8.1.5 Hive和Hadoop的关系 112 8.2 Hive的原理及架构 113 8.2.1 Hive的设计原理 113 8.2.2 Hive的体系结构 113 8.2.3 Hive的运行机制 114 8.2.4 Hive的转换过程 115 8.2.5 Hive的数据类型 115 8.2.6 Hive的数据存储 116 8.3 MySQL的安装与部署 117 8.4 安装与部署Hive客户端 118 项目九 Hive常用命令的使用 121 9.1 Hive对数据库的操作 121 9.1.1 创建数据库 121 9.1.2 使用数据库 122 9.1.3 修改数据库 123 9.1.4 删除数据库 123 9.2 Hive对数据表的操作 124 9.2.1 创建表 124 9.2.2 查看表 126 9.2.3 修改表 127 9.2.4 删除表 127 9.3 Hive数据的相关操作 128 9.3.1 数据导入 128 9.3.2 数据导出 130 9.3.3 数据备份与恢复 132 9.4 Hive查询的相关操作 133 9.4.1 查询显示所有字段 133 9.4.2 查询显示部分字段 133 9.4.3 where条件查询 133 9.4.4 distinct去重查询 134 9.4.5 group by分组查询 134 9.4.6 order by全局排序 134 9.4.7 sort by局部排序 135 9.4.8 distribute by分区查询 135 9.4.9 cluster by分区排序 136 9.5 Hive表连接的相关操作 137 9.5.1 等值连接 137 9.5.2 内连接 137 9.5.3 左连接 137 9.5.4 右连接 138 9.5.5 全连接 138 9.6 Hive内部表和外部表的相关操作 139 9.6.1 内部表 139 9.6.2 外部表 140 9.7 Hive分区与分桶的相关操作 140 9.7.1 创建表分区 140 9.7.2 创建分桶 142 项目十 搭建HBase分布式集群 144 10.1 HBase 概述 144 10.1.1 HBase是什么 144 10.1.2 HBase的特点 144 10.2 HBase的模型及架构 145 10.2.1 HBase的逻辑模型 145 10.2.2 HBase的数据模型 145 10.2.3 HBase的物理模型 146 10.2.4 HBase的基本构架 147 10.3 HBase集群的安装与配置 149 10.4 启动HBase集群服务 151 10.5 HBase Shell工具 152 10.6 HBase Java客户端 154 10.6.1 添加HBase的相关依赖 154 10.6.2 连接HBase数据库 154 10.6.3 创建HBase表 155 10.6.4 向HBase表中插入数据 155 10.6.5 查询HBase表数据 156 10.6.6 HBase过滤查询 157 10.6.7 删除HBase表 158 项目十一 Sqoop的安装与部署 160 11.1 Sqoop数据迁移工具 160 11.1.1 Sqoop概述 160 11.1.2 Sqoop的优势 161 11.1.3 Sqoop的架构及工作机制 161 11.1.4 Sqoop Import流程 161 11.1.5 Sqoop Export流程 162 11.2 Sqoop的安装与配置 163 11.3 案例:Sqoop迁移Hive仓库数据 164 项目十二 Flume的安装与使用 166 12.1 Flume日志采集系统 166 12.1.1 Flume概述 166 12.1.2 Flume NG架构设计 167 12.2 Flume的安装与配置 168 12.3 测试实例:监控端口数据 170 12.3.1 案例需求 170 12.3.2 实现步骤 170 项目十三 搭建Kafka分布式集群 173 13.1 Kafka 概述 173 13.1.1 Kafka的定义 173 13.1.2 Kafka的设计目标 173 13.1.3 Kafka的特点 174 13.2 Kafka的构架设计 174 13.2.1 主题和分区 175 13.2.2 消费者和消费者组 175 13.2.3 副本 176 13.3 Kafka分布式集群的安装与配置 176 项目十四 Davinci的安装与部署 180 14.1 Davinci的架构设计 180 14.1.1 Davinci的定义 180 14.1.2 Davinci的架构设计 180 14.1.3 Davinci的应用场景 181 14.2 Davinci的安装与部署 181 14.2.1 部署规划 181 14.2.2 准备前置环境 182 14.2.3 下载安装包 182 14.2.4 安装与初始化目录 182 14.2.5 配置环境变量 183 14.2.6 初始化数据库 183 14.2.7 Davinci服务器的启停与注册 185 项目十五 互联网金融项目的离线分析 187 15.1 需求分析及流程设计 187 15.2 创建文件夹与数据库 188 15.3 创建相应表格 189 15.4 Sqoop采集MySQL中的数据 191 15.4.1 启动集群相关服务 191 15.4.2 创建Hive数据库 191 15.4.3 MySQL数据迁移至Hive 191 15.5 对金融项目进行离线分析 193 15.5.1 信用卡用户特征分析 193 15.5.2 信用卡用户消费行为分析 195 15.5.3 信用卡用户管理行为分析 196 15.6 创建MySQL业务表 197 15.7 统计结果导入MySQL 200 15.8 Davinci数据可视化分析 203 15.8.1 启动Davinci并创建项目 203 15.8.2 创建不同的视图 204 15.8.3 创建不同的图表 215 15.8.4 创建大屏 220 参考文献 223
展开全部
商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服