书馨卡帮你省薪 2024个人购书报告 2024中图网年度报告
欢迎光临中图网 请 | 注册
> >
大数据采集与预处理技术(HDFS+HBase+Hive+Python)(微课视频版)

大数据采集与预处理技术(HDFS+HBase+Hive+Python)(微课视频版)

出版社:清华大学出版社出版时间:2022-09-01
开本: 其他 页数: 288
中 图 价:¥38.9(6.5折) 定价  ¥59.9 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

大数据采集与预处理技术(HDFS+HBase+Hive+Python)(微课视频版) 版权信息

  • ISBN:9787302612247
  • 条形码:9787302612247 ; 978-7-302-61224-7
  • 装帧:70g胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

大数据采集与预处理技术(HDFS+HBase+Hive+Python)(微课视频版) 本书特色

汇集大数据采集与预处理的理论与常见用法,通过实例展示一本书掌握数据科学、机器学习从业者都需要的数据预处理技术一本书掌握数据科学、机器学习从业者都需要的数据预处理技术

大数据采集与预处理技术(HDFS+HBase+Hive+Python)(微课视频版) 内容简介

本书主要介绍大数据关键技术中的大数据采集和数据预处理技术,是大数据专业的入门级的专业基础课教程(含教学课件、源代码与视频教程),旨在为学生搭建起大数据的知识架构,讲述大数据采集和数据预处理的基本原理,开展相关的实验,为学生在大数据以及相关领域的学习奠定坚实的基础。全书共分四部分:**部分是理论基础(第1~2章和第6章),主要介绍大数据技术、大数据采集和大数据预处理的基本概念以及基础理论;第二部分是大数据采集(第3~5章),分别介绍3种大数据的采集方法、技术及4种工具;第三部分是大数据预处理(第7~8章),介绍4种大数据预处理技术、方法;第四部分是实验指导(第9~11章),介绍大数据采集和大数据预处理的实验平台以及具体实验的内容、方法、流程等。 为便于读者高效学习,快速掌握大数据专业基础知识。作者精心制作了完整的教学课件(11章PPT)与部分配套视频教程(200分钟)。本书可以作为高等院校计算机、电子信息、信息管理、软件工程等专业,尤其大数据相关专业的本科和硕士研究生教材或参考书。

大数据采集与预处理技术(HDFS+HBase+Hive+Python)(微课视频版) 目录

第1章 概述 1.1 大数据基础 1.1.1 大数据的定义与特征 1.1.2 我国的大数据发展及趋势 1.1.3 大数据的应用 1.1.4 大数据的层次架构 1.2 大数据技术 1.2.1 大数据关键技术 1.2.2 大数据支撑技术 1.3 大数据的影响及思维方式 1.3.1 大数据的影响 1.3.2 大数据的思维方式 1.4 大数据伦理及安全 1.4.1 大数据伦理 1.4.2 大数据安全 1.5 本章小结 习题 第2章 大数据采集技术基础 2.1 传统数据采集技术 2.1.1 传统数据采集及特点 2.1.2 传统数据采集的硬件与软件 2.1.3 传统数据采集的关键技术 2.2 大数据采集基础 2.2.1 大数据采集的概念 2.2.2 大数据采集的要点 2.2.3 大数据的来源 2.2.4 大数据采集的基本方法 2.3 大数据分布式文件系统 2.3.1 数据管理技术的发展 2.3.2 HDFS概述 2.3.3 HDFS特点 2.3.4 HDFSX工作原理 2.3.5 HDFS的读/写数据流程 2.4 分布式数据库系统HBase 2.4.1 分布式关系数据库系统的缺陷 2.4.2 HBase简介 2.4.3 HBase的数据模型关键要素 2.4.4 HBasel的体系结构 2.5 大数据分布式数据仓库 2.5.1 数据仓库的特点 2.5.2 Hive的内部架构 2.5.3 Hive的数据组织 2.6 本章小结 习题 第3章 系统日志数据采集 3.1 系统日志数据采集概述 3.1.1 系统日志分类 3.1.2 日志分析应用场景 3.1.3 系统日志收集方法 3.2 Flume数据采集 3.2.1 Flume效益 3.2.2 Flume整体结构 3.2.3 Flume的核心部件Agent 3.2.4 Flume运行机构 3.3 Scrihe数据采集 3.3.1 Scribe的功能 3.3.2 Scribe的架构 3.3.3 Scribe的流程 3.3.4 Scribe存储类型 3.4 Event Log Analyzer数据采集 3.4.1 Event Log Analyzer特点 3.4.2 Event Log Analyzer主要功能 3.4.3 Eveilt Log Analyzer的可视化用户界面 3.5 基于Log Parser的数据采集 3.5.1 Log Parser组成部分 3.5.2 Log Parser Lizard软件功能 3.5.3 Log Parser Lizard软件特色 3.6 本章小结 习题 第4章 大数据迁移 4.1 数据迁移基础 4.1.1 大数据迁移的需求 4.1.2 大数据迁移的风险 4.1.3 大数据迁移的流程 4.1.4 大数据迁移任务类型 4.2 数据迁移相关技术 4.2.1 基于存储的数据迁移 4.2.2 基于主机逻辑卷的数据迁移 4.2.3 基于数据库的数据迁移 4.2.4 基于服务器虚拟化的数据迁移 4.3 大数据迁移工具Sqoop 4.3.1 Sqoop概述 4.3.2 Sqoop的数据导入 4.3.3 Scloop的数据导出 4.4 ETL数据迁移技术 4.4.1 ETL概述 4.4.2 ETL的实现模式 4.4.3 ETL工具 4.5 本章小结 习题 第5章 互联网数据采集 5.1 网络爬虫概述 5.1.1 网络爬虫的基本概念 5.1.2 网络爬虫的爬行策略 5.1.3 web 新策略 5.1.4 robots协议 5.2 网络爬虫方法 5.2.1 按功能分类的网络爬虫 5.2.2 通用网络爬虫 5.2.3 焦点网络爬虫 5.2.4 Deep Web爬虫 5.2.5 分布式网络爬虫 5.3 网络爬虫工具 5.3.1 ParseHub 5.3.2 Web Scraper 5.3.3 后羿采集器 5.3.4 八爪鱼收集器 5.4 Python爬虫技术 5.4.1 Python爬行器基础知识 5.4.2 反爬虫与反爬虫技术 5.5 本章小结 习题 第6章 数据预处理基础 6.1 数据的描述 6.1.1 数据对象与属性类型 6.1.2 数据的统计描述 6.1.3 数据矩阵与相似(相异)矩阵 6.2 相似性或相异性度量方法 6.2.1 标称属性相似性或相异性的度量 6.2.2 二元属性相似性或相异性的度量 6.2.3 数值属性相似性或相异性的度量 6.2.4 文档相似性和相异性的度量 6.3 大数据质量 6.3.1 常见的数据质量问题 6.3.2 大数据质量标准 6.4 本章小结 习题 第7章 数据清洗与集成 7.1 数据清洗基础 7.1.1 数据清洗的任务 7.1.2 数据清洗的前期准备 7.1.3 数据清洗的一般性系统框架 7.2 数据清洗技术 7.2.1 缺失值处理 7.2.2 光滑噪声数据处理 7.2.3 检测偏差与纠正偏差 7.3 数据集成基础 7.3.1 数据集成的难点 7.3.2 数据集成的方式 7.4 数据集成技术 7.4.1 模式识别和对象匹配 7.4.2 冗余处理 7.4.3 数据值冲突的检测与处理 7.5 本章小结 习题 第8章 数据归约与变换 8.1 数据归约基础 8.1.1 数据归约策略 8.1.2 数据归约算法的特点 8.1.3 数据归约的一般方法 8.2 数据归约技术 8.2.1 小波变换
展开全部
商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服