图书盲袋,以书为“药”
欢迎光临中图网 请 | 注册

大数据基础

作者:刘铭编著
出版社:中国石油大学出版社出版时间:2021-11-01
开本: 24cm 页数: 223页
中 图 价:¥27.4(7.2折) 定价  ¥38.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

大数据基础 版权信息

  • ISBN:9787563669158
  • 条形码:9787563669158 ; 978-7-5636-6915-8
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

大数据基础 内容简介

本书在简单阐述原理的基础上,重点阐述应用的详细实现过程。全书共八章,内容包括:绪论、Linux基础、Hadoop基础、高可用Hadoop集群、Hive基础、HBase基础、Spark基础、数据采集基础。

大数据基础 目录

第1章 绪论 1.1 大数据概述 1.1.1 大数据技术的发展 1.1.2 大数据应用的发展 1.1.3 大数据典型的应用场景 1.2 对大数据的理解 1.2.1 大数据的定义 1.2.2 大数据的特征 1.2.3 从关系型数据库到大数据 1.2.4 大数据处理模式 1.3 大数据处理的基本流程 1.3.1 数据抽取与集成 1.3.2 数据分析 1.3.3 数据解释 1.3.4 常用大数据软件 1.4 Hadoop概述 1.4.1 HDFS 1.4.2 MapReduce 1.4.3 Yarn 1.4.4 MapReduce与Yarn的对比 1.5 Spark概述 1.5.1 Spark简介 1.5.2 Spark体系架构 第2章 Linux基础 2.1 Linux简介 2.1.1 Linux的由来 2.1.2 常见的Linux系统版本 2.2 Linux系统安装 2.2.1 安装配置虚拟机 2.2.2 安装Linux系统 2.2.3 Linux文件系统 2.3 Linux命令 2.3.1 Shell简介 2.3.2 运用帮助命令 2.3.3 常用命令 第3章 Hadoop基础 3.1 HDFS简介 3.2 Hadoop集群安装 3.2.1 集群规划 3.2.2 配置网络名称 3.2.3 禁用防火墙 3.2.4 设置SELinux模式 3.2.5 安装JDK 3.2.6 配置ssh免密码登录 3.2.7 安装Hadoop集群 3.3 HDFS的文件存储机制 3.3.1 文件存储机制概述 3.3.2 HDFS的命名空间 3.3.3 NameNode元数据管理要点 3.3.4 客户端 3.3.5 通信协议 3.4 HDFS的数据存储管理 3.4.1 数据冗余存储 3.4.2 数据存取策略 3.4.3 数据错误与恢复 3.5 HDFS的数据读写过程 3.5.1 读取数据过程 3.5.2 写入数据过程 3.6 HDFS常用命令 第4章 高可用Hadoop集群 4.1 Zookeeper基础 4.1.1 Zookeeper简介 4.1.2 Zookeeper工作流程 4.1.3 Zookeeper的用途及特点 4.1.4 Zookeeper的数据存储机制 4.1.5 Zookeeper的集群部署 4.2 高可用Hadoop集群配置 4.2.1 集群规划 4.2.2 安装配置Zookeeper集群 4.2.3 安装配置高可用Hadoop集群 第5章 Hive基础 5.1 Hive概述 5.1.1 Hive简介 5.1.2 Hive的设计特点 5.1.3 Hive数据对象 5.2 元数据库基础 5.2.1 MySQL和MariaDB的关系 5.2.2 安装MariaDB数据库 5.2.3 MariaDB数据库初始化 5.2.4 给root用户授权 5.3 Hive的配置 5.3.1 准备工作 5.3.2 Hive的元数据库配置 5.4 Hive使用方式 5.4.1 本地运行方式 5.4.2 远程运行方式 5.4.3 脚本化运行方式 5.5 Hive的DDL 5.5.1 数据库相关的DDL 5.5.2 Hive数据类型 5.5.3 表相关的DDL 5.6 数据导人与导出 5.6.1 将数据文件导入Hive表 5.6.2 将Hive表中的数据导出到指定路径的文件 5.7 Hive的查询 5.7.1 基本查询 5.7.2 条件查询 5.7.3 关联查询 5.7.4 分组聚合 5.7.5 子查询 第6章 HBase基础 6.1 HBase概述 6.1.1 HBase简介 6.1.2 HBase与传统数据库对比 6.2 HBase接口 6.3 HBase数据模型 6.3.1 数据模型概述 6.3.2 数据坐标 6.3.3 概念视图 6.3.4 物理视图 6.4 HBase实现原理 6.4.1 HBase功能组件 6.4.2 表和Region 6.4.3 Region的定位 6.5 HBase运行机制 6.5.1 HBase的系统架构 6.5.2 Region服务器的工作原理 6.5.3 Store工作原理 6.5.4 HLog工作原理 6.6 HBase应用 6.6.1 实际应用中HBase性能优化方法 6.6.2 在HBase之上构建SQL引擎 6.6.3 构建HBase二级索引 6.7 HBase实战 6.7.1 HBase的安装与配置 6.7.2 HBase常用的shell命令 6.7.3 HBase常用的JavaAPI及应用实例 第7章 Spark基础 7.1 Spark概述 7.1.1 Spark的特点 7.1.2 Spark的产生背景 7.2 Spark集群的安装 7.2.1 Spark集群的分布式部暑 7.2.2 Spark高可用集群的介绍 7.2.3 Spark高可用集群的搭建 7.2.4 执行**个Spark程序 7.3 SparkShell 7.3.1 启动SparkShell 7.3.2 在SparkShell中编写WordCount 7.3.3 Spark任务执行流程简介 7.3.4 在IDEA中用Scala编写WordCount 7.4 Spark RDD基础 7.4.1 创建RDD的方式 7.4.2 RDD的Transformation 7.4.3 Spark RDD分区数 7.4.4 Spark RDD分区机制 7.4.5 mapPartitionWithIndex 7.4.6 aggregate 7.4.7 aggregateByKey 7.4.8 foreach和foreachPartition 7.4.9 常用Transformation与Action的总结 7.5 Spark案例实战与详解 7.5.1 样本数据 7.5.2 分析*受欢迎的老师
展开全部
商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服