图书盲袋,以书为“药”
欢迎光临中图网 请 | 注册
> >
大数据:基础、技术与应用

大数据:基础、技术与应用

出版社:科学出版社出版时间:2022-02-01
开本: 其他 页数: 260
中 图 价:¥46.5(8.3折) 定价  ¥56.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

大数据:基础、技术与应用 版权信息

  • ISBN:9787030714473
  • 条形码:9787030714473 ; 978-7-03-071447-3
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

大数据:基础、技术与应用 本书特色

适读人群 :高校相关专业高年级本科生或研究生,有志于从事大数据相关工作的各界社会人士内容全面、内容较新、理论与实践结合,对大学生及社会人士具体重要参考价值。

大数据:基础、技术与应用 内容简介

本书主要包括十三章,其中:(1)**章为本书的引言部分,介绍大数据的概念、特征和发展趋势。(2)第二-第七章按照大数据分析的流程顺序,分别介绍大数据采集、存储、计算、分析、挖掘、可视化技术。(3)第八章、第九章介绍大数据技术与当下流行的两门技术,即云计算和人工智能技术的关系。(4)第十-第十三章侧重典型行业内的大数据技术应用,即工业大数据、政务大数据、商业大数据、多媒体大数据等。

大数据:基础、技术与应用 目录

目录
第1章 大数据概述 1
1.1 大数据发展历程 1
1.2 大数据主要特征 3
1.3 大数据与云计算、人工智能和物联网 6
1.4 大数据发展现状和趋势 10
习题 17
第2章 大数据采集 18
2.1 大数据采集概述 18
2.1.1 大数据的来源 18
2.1.2 大数据的采集 18
2.2 海量日志采集系统Flume 19
2.2.1 Flume简介 19
2.2.2 Flume的组成 19
2.2.3 Flume的工作流程 22
2.2.4 Flume的数据流模型 24
2.2.5 Flume实战 26
2.3 分布式发布订阅消息系统Kafka 34
2.3.1 Kafka简介 34
2.3.2 Kafka的架构 36
2.3.3 Kafka的应用场景 39
2.3.4 Kafka实战 40
习题 45
第3章 大数据存储基础 46
3.1 HDFS简介 46
3.1.1 HDFS的设计目标 46
3.1.2 HDFS的局限性 47
3.2 HDFS的体系架构 47
3.2.1 数据块 48
3.2.2 名称节点和数据节点 49
3.2.3 第二名称节点 49
3.3 HDFS运行原理 50
3.3.1 副本机制 51
3.3.2 数据出错与恢复 52
3.3.3 HDFS文件读流程 53
3.3.4 HDFS文件写流程 54
3.4 HDFS编程实践 55
3.4.1 利用Shell命令与HDFS进行交互 56
3.4.2 利用Web界面管理HDFS 58
3.4.3 使用Java API访问HDFS 59
习题 65
第4章 大数据存储进阶 66
4.1 从关系型数据库到NoSQL数据库 66
4.1.1 关系型数据库 66
4.1.2 NoSQL简介 68
4.1.3 NoSQL的基础理论 68
4.1.4 NoSQL的四大类型 71
4.2 分布式数据库HBase概述 73
4.2.1 HBase简介 73
4.2.2 HBase数据模型 75
4.2.3 HBase体系结构 78
4.2.4 HBase工作原理 79
4.3 HBase编程实践 83
4.3.1 安装HBase 83
4.3.2 HBase配置 84
4.3.3 HBase Shell命令 87
习题 90
第5章 大数据计算 91
5.1 MapReduce概述 91
5.1.1 MapReduce来源 91
5.1.2 MapReduce设计思想 92
5.1.3 MapReduce的优缺点 93
5.2 MapReduce工作流程 94
5.2.1 MapReduce基本架构 94
5.2.2 MapReduce运行机制 95
5.2.3 MapReduce内部逻辑 96
5.3 MapReduce实例分析 98
5.3.1 WordCount设计思路 98
5.3.2 WordCount数据处理流程 98
5.3.3 WordCount编程实现 101
5.4 Spark概述 108
5.4.1 Spark简介 108
5.4.2 Spark生态圈 109
5.5 Spark工作流程 110
5.5.1 基本概念 110
5.5.2 架构设计 110
5.5.3 运行流程 112
5.5.4 RDD算子 113
习题 114
第6章 多维大数据分析 115
6.1 多维数据模型 115
6.1.1 数据立方体 115
6.1.2 多维数据模型 115
6.1.3 概念分层 119
6.1.4 多维数据模型中的OLAP操作 120
6.1.5 多维数据模型的优缺点 122
6.2 多维分析工具Hive 123
6.2.1 Hive简介 123
6.2.2 数据仓库与数据库 123
6.2.3 Hive的架构及工作原理 126
6.2.4 Hive的数据类型 128
6.2.5 Hive的数据模型 129
6.2.6 Hive实战 130
习题 137
第7章 大数据挖掘 138
7.1 数据挖掘概述 138
7.1.1 数据挖掘简介 138
7.1.2 数据预处理 138
7.1.3 数据挖掘任务 139
7.2 分类 140
7.2.1 分类模型 140
7.2.2 决策树 141
7.2.3 支持向量机 145
7.3 回归 147
7.3.1 回归模型 147
7.3.2 线性回归 148
7.3.3 多项式回归 149
7.4 聚类 150
7.4.1 聚类模型 150
7.4.2 k均值算法 152
7.4.3 DBSCAN算法 153
7.5 关联分析 155
7.5.1 关联分析模型 155
7.5.2 Apriori算法 156
7.5.3 FP-growth算法 158
习题 160
第8章 大数据可视化 161
8.1 数据可视化概述 161
8.1.1 数据可视化简介 161
8.1.2 数据可视化的发展历程 161
8.1.3 数据可视化的作用 163
8.2 数据可视化方法 164
8.2.1 高维大数据可视化 164
8.2.2 网络和层次大数据可视化 166
8.2.3 时空大数据可视化 168
8.2.4 文本大数据可视化 169
8.3 数据可视化工具 170
8.3.1 ECharts 170
8.3.2 Tableau 174
8.3.3 D3 176
习题 182
第9章 大数据与人工智能 183
9.1 人工智能概述 183
9.1.1 人工智能简介 183
9.1.2 人工智能核心技术 183
9.1.3 人工智能与大数据的应用 184
9.1.4 人工智能与大数据的关系 187
9.1.5 大数据领域的人工智能展望 189
9.2 机器学习与大数据 189
9.2.1 大规模机器学习优化算法 189
9.2.2 大数据下的机器学习 192
9.3 深度学习与大数据 193
9.3.1 典型深度学习算法 194
9.3.2 大数据下的深度学习 199
习题 199
第10章 政务大数据 201
10.1 智慧政务概述 201
10.1.1 政务信息化发展历史 201
10.1.2 智慧政务内涵 202
10.1.3 “*多跑一次”改革 203
10.2 政务大数据体系架构 204
10.2.1 政务大数据概述 204
10.2.2 政务大数据总体架构 205
10.2.3 政务大数据安全 207
10.3 政务大数据与区块链 208
10.3.1 区块链概述 208
10.3.2 推动政务数据“上链” 209
10.3.3 基于区块链的政务大数据共享和交换 210
习题 212
第11章 商业大数据 213
11.1 商业智能与大数据 213
11.1.1 传统商业智能 213
11.1.2 大数据时代的商业智能 217
11.1.3 商业智能案例 218
11.2 社交计算与大数据 220
11.2.1 传统社交网络 220
11.2.2 大数据时代的社交网络 221
11.2.3 社交计算案例 223
11.3 推荐系统与大数据 224
11.3.1 传统推荐系统 224
11.3.2 大数据时代的推荐系统 227
11.3.3 推荐系统案例 228
习题 230
第12章 多媒体大数据 231
12.1 文本大数据 231
12.1.1 文本大数据简介 231
12.1.2 文本大数据代表性技术 232
12.1.3 典型应用案例 234
12.2 图像大数据 236
12.2.1 图像大数据简介 236
12.2.2 图像大数据代表性技术 236
12.2.3 典型应用案例 238
12.3 音频大数据 239
12.3.1 音频大数据简介 239
12.3.2 音频大数据代表性技术 240
12.3.3 典型应用案例 241
12.4 视频大数据 242
12.4.1 视频大数据简介 242
12.4.2 视频大数据代表性技术 243
12.4.3 典型应用案例 244
习题 246
参考文献 247
展开全部

大数据:基础、技术与应用 节选

第1章 大数据概述 本章*先介绍大数据的发展历程及其主要特征,接着阐述大数据与云计算、人工智能和物联网之间的关联,*后给出大数据的发展现状以及未来趋势。 1.1 大数据发展历程 从上古时代的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数学建模”,数据一直伴随着人类社会的发展和变迁。然而,直到以电子计算机为代表的现代信息技术出现后,人类获取数据、掌握数据、处理数据的能力才实现了质的跃升。人类社会在信息科技领域的不断进步为大数据时代的到来提供了技术支持,数据成为继物质、能源之后的又一种重要战略资源。 根据IBM前*席执行官郭士纳的观点,IT领域每隔15年就会迎来一次重大变革。三次信息化浪潮见表1.1。1980年前后,个人计算机(Personal Computer,PC)开始普及。计算机的广泛应用解决了信息处理的问题,大大提高了社会生产力,也使人类迎来了**次信息化浪潮,Intel、 IBM、 苹果、微软、联想等企业是这个时期的标志。随后,在1995年前后,人类开始全面进入互联网时代。互联网的普及把世界变成“地球村”,有效解决了信息传输的问题,人类随之迎来了第二次信息化浪潮。这个时期也缔造了雅虎、谷歌、阿里巴巴、百度等互联网巨头。时隔15年,在2010年前后,云计算、大数据、物联网等前沿技术的快速发展,有效应对了信息爆炸带来的新问题,由此拉开了第三次信息化浪潮的大幕,大数据时代正式到来。 表1.1 三次信息化浪潮 大数据的发展历程总体上可以划分为三个重要阶段:萌芽期、成熟期和大规模应用期。三个阶段的时间和主要特点见表1.2。 表1.2 大数据发展的三个阶段 下面简要回顾大数据的发展历程。 1980年,著名未来学家阿尔文 托夫勒在其著名的《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。 1997年,迈克尔 考克斯和大卫 埃尔斯沃思在第八届电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章,这是在美国计算机学会的数字图书馆中**篇使用“大数据”这一术语的文章。 2001年,梅塔集团分析师道格 莱尼发布题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告。自此,“大数据”这一概念在信息通信领域被普遍接受、研究和使用。 2003年,谷歌公司发表了论文The Google File System(《谷歌文件系统》),介绍GFS分布式文件系统。该系统可用于海量数据的可靠存储。 2004年,谷歌公司发表了论文MapReduce:Simplified Data Processing on Large Clusters(《MapReduce:基于大规模集群的简化数据处理》),介绍并行计算模型MapReduce。该模型可用于海量数据的高效计算。 2008年,《自然》杂志推出了大数据专刊;计算社区联盟(Computing Community Consortium)发布了报告《大数据计算:在商业、科学和社会领域的革命性突破》,阐述了大数据技术及其面临的一些挑战。 2011年,《科学》杂志推出专刊《数据处理》,讨论了科学研究中的大数据问题。 2011年,维克托 迈尔-舍恩伯格和肯尼思 库克耶出版著作《大数据时代:生活、工作与思维的大变革》,引起了社会轰动。书中提到的大数据的“4V”特征,即规模性(Volume)、高速性(Velocity)、多样性(Variety)和价值性(Value)作为定义大数据的四个维度被广泛接受。 2011年,麦肯锡全球研究院发布《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,提出“大数据”时代已到来。 2012年,美国奥巴马政府发布《大数据研究和发展倡议》,正式启动“大数据发展计划”,大数据由此上升为美国国家发展战略,被视为美国政府继“信息高速公路计划”之后在信息科学领域的又一重大举措。 2013年,中国计算机学会发布《中国大数据技术与产业发展白皮书》,系统总结了大数据的核心科学与技术问题。 2014年,美国政府发布2014年全球“大数据”白皮书《大数据:抓住机遇、守护价值》,鼓励使用数据来推动社会进步。 2015年,我国国务院印发《促进大数据发展行动纲要》,指出要全面推进我国大数据的发展和应用,加快建设数据强国。 2017年1月,我国工业和信息化部发布《大数据产业发展规划(2016-2020年)》,全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网络强国提供强大的数据产业支撑。 2017年12月,中共中央政治局就实施国家大数据战略进行第二次集体学习。中共中央总书记习近平在主持学习时强调,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据的发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略。① 2019年5月,中国国家互联网信息办公室发布《数据安全管理办法(征求意见稿)》,表明我国大数据的发展和利用从野蛮生长时代进入了正规化管理的关键时代。 2019年12月,美国行政管理和预算局(Office of Management and Budget,OMB)发布《联邦数据战略与2020年行动计划》。该计划以政府数据治理为主要视角,描述了联邦政府未来十年的数据愿景和2020年要推行的关键行动,将数据战略焦点从“技术”转移到“资源”。 2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将“数据”与土地、劳动力、资本、技术并称为五种要素,这标志着数据要素市场化配置上升为国家战略。 2020年4月,中国国家互联网信息办公室、国家发改委等12个部门联合发布《网络安全审查办法》,为我国开展网络安全审查工作提供了重要的制度保障。 2020年9月,阿里巴巴云栖大会*次全程在线上举办,并发布了多款产品与技术,包括软硬件结合的沙箱容器 2.0、离线实时一体化数据仓库 MaxCompute、阿里云的云原生分布式数据库 PolarDB-X等。 2021年6月,第十三届全国人民代表大会常务委员会第二十九次会议通过《中华人民共和国数据安全法》。 2021年7月,中国国家互联网信息办公室发布关于《网络安全审查办法(修订草案征求意见稿)》公开征求意见的通知。征求意见稿包括了“掌握超过100万名用户个人信息的运营者赴国外上市,必须向网络安全审查办公室申报网络安全审查”等内容。同期,中国国家互联网信息办公室等七部门联合进驻滴滴出行科技有限公司,开展网络安全审查。 1.2 大数据主要特征 大数据并无统一的定义。但是,一般来说,大数据泛指无法在一定时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的特点可以用多个V来概括,其中*被认可的是以下四个V:规模性、多样性、高速性和价值性。下面分别介绍这四个特征的主要内容。 1. 规模性(Volume) 信息技术的高速发展带来了数据量的爆发性增长。从1986年开始到2010年的20多年时间里,全球的数据量增长了100倍。社交网络[微博、推特(Twitter)、脸书(Facebook②)]、电商平台、各种智能及服务工具等都成为海量数据的生产源。据2011年淘宝网及脸书官方统计数据显示,淘宝网近4亿会员每天产生的商品交易数据量约20 TB;脸书约10亿用户每天产生的日志数据量超过300 TB。未来,随着物联网的推广和普及,各种传感器和摄像头将遍布人们工作和生活的各个角落,这些设备每时每刻都在自动产生大量数据。 综上所述,各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。根据著名咨询机构IDC(Internet Data Center)做出的估测,人类社会产生的数据量一直都在以每年50%的速度增长,也就是说,每两年产生的数据量就会增加一倍,这被称为“大数据摩尔定律”。这意味着,人类在*近两年产生的数据量相当于之前产生的全部数据量之和。IDC发布的《数据时代2025》白皮书预测:到2025年,全球数据量将达到史无前例的163 ZB。数据量的规模巨大是大数据的一个**特征。但是,到底多大规模的数据量才能算作大数据并无确定的标准。一般来说,至少PB级规模以上的数据量才能称为大数据,当然,这也与处理数据的复杂程度相关。表1.3给出了数据存储单位之间的换算关系。 表1.3 数据存储单位间的换算关系 2. 多样性(Variety) 广泛的数据来源,决定了大数据形式的多样性。根据数据是否具有一定的模式、结构和关系,大数据可分为三种基本类型:结构化数据、非结构化数据和半结构化数据,详见表1.4。 表1.4 大数据的数据类型 数据类型 说明 结构化数据 具有固定的结构、属性划分和类型等信息,通常以二维表格的形式存储在关系型数据库里。结构化数据是先有结构、后产生数据。结构化数据的分析方法大部分以统计分析和数据挖掘为主 非结构化数据 不遵循统一的数据结构或模型,不方便用二维逻辑表来表现(如文本、图像、视频、音频等)。非结构化数据在企业数据中占比达90%,且增长速率更快,更难被计算机理解,不能直接被处理或用SQL语句进行查询。非结构化数据常以二进制大型对象形式整体存储在关系型数据库或非关系型数据库中,其处理分析过程也更为复杂 半结构化数据 具有一定的结构,但又灵活可变,介于完全结构化数据和完全非结构化数据之间。半结构化数据包含相关标记,用来分隔语义元素以及对记录和字段进行分层。两种常见的半结构化数据为:XML文件和JSON文件。半结构化数据的常见来源包括电子转换数据(EDI)文件、扩展表、RSS源、传感器数据等 除了以上三种数据类型外,还有一种用于描述其他数据的数据,即元数据。元数据可说明已知的数据的一些属性信息(数据长度、字段、数据列、文件目录等),提供了数据系谱信息(包含数据的演化过程)和数据处理的起源。元数据可分为三种不同类型,分别为记叙性元数据、结构性元数据和管理性元数据,主要由机器生成并添加到数据集中。例如,数码照片文件中提供文件大小和分辨率的属性数据就是一种元数据。元数据的作用类似于数据仓库中的数据字典。 3. 高速性(Velocity) 据相关商业智能(BI)科技公司2021年的统计,在1分钟内,谷歌可以产生570万次搜索查询,脸书用户可以分享24万张图片,推特可以产生57.5万条推文,抖音(Tiktok)用户可以观看1.67亿个视频,亚马逊(Amazon)可以产生28.3万美元的交易额。 大数据时代的很多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常要达到秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。 为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。通过结合多级树状执行过程和列式数据结构,它能在几秒内完成对万亿张表的聚合查询,并可以扩展到成千上万的CPU上,从而满足谷歌上万用户操作PB级数据的需求。 4. 价值性(Value) 随着互联网及物联网的广泛应用,数据量呈几何级数爆炸式增长。然而,在海量数据中,有价值

商品评论(0条)
暂无评论……
书友推荐
本类畅销
返回顶部
中图网
在线客服