超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

不再提示
关闭
欢迎光临中图网 请 | 注册
> >
大数据技术原理与应用

大数据技术原理与应用

出版社:科学出版社出版时间:2022-09-01
开本: 16开 页数: 252
中 图 价:¥64.7(8.3折) 定价  ¥78.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

大数据技术原理与应用 版权信息

  • ISBN:9787030729576
  • 条形码:9787030729576 ; 978-7-03-072957-6
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

大数据技术原理与应用 内容简介

本书从大数据基础原理、大数据分析方法和大数据行业应用三个部分介绍大数据技术。全书共12章,内容包含大数据的基本概念,分布式基础架构Hadoop,分布式文件系统HDFS,NoSQL数据库,分布式计算框架MapReduce,大数据基本分析方法(聚类、分类与预测),大数据在搜索引擎、推荐系统以及其他行业的应用。本书在前7章设置8个实验,帮助读者初步掌握大数据技术、大数据分析与大数据应用的相关知识与操作技能。 本书可作为信息管理与信息系统相关专业的教材,也可用作计算机相关专业的教材。同时,本书在编写时考虑到前期没有接触过计算机原理、数据库、操作系统相关内容的读者群,尤其是信息管理相关专业的本科生、跨专业的研究生,帮助他们更好地理解和掌握大数据基础原理与方法。

大数据技术原理与应用 目录

目录
前言
第1章 大数据概述 1
1.1 什么是大数据 1
1.1.1 关于大数据的预言 1
1.1.2 触发大数据产生的三种技术 2
1.1.3 大数据形成中遇到的问题及解决方案 3
1.1.4 各方对大数据的定义 4
1.2 大数据的类型与特征 4
1.2.1 按照数据结构分类 4
1.2.2 按照生产主体分类 6
1.2.3 按照作用方式分类 6
1.2.4 大数据的特征 7
1.3 大数据的思维方式 8
1.4 大数据的技术流程 9
1.4.1 总体处理流程 9
1.4.2 数据采集与数据预处理 10
1.4.3 数据存储 10
1.4.4 数据分析与数据挖掘 11
1.5 主流的大数据平台 11
1.5.1 Hadoop 12
1.5.2 Spark 12
1.5.3 Storm 13
1.5.4 Flink 13
1.5.5 主流的大数据平台比较 14
1.6 大数据集群的部署方式 14
1.6.1 分布式 14
1.6.2 云架构 15
1.7 实验1:熟悉虚拟环境、Linux、Java 17
1.7.1 安装VMware 17
1.7.2 Linux基本命令 21
1.7.3 在Linux中安装Java环境 22
1.8 习题与思考 23
第2章 分布式基础架构Hadoop 24
2.1 什么是Hadoop 24
2.2 Hadoop的发展历史 25
2.3 Hadoop的基本特性 27
2.4 深入了解Hadoop 28
2.4.1 Hadoop的体系结构 28
2.4.2 Hadoop的并行开发 30
2.4.3 Hadoop的生态系统 31
2.5 Hadoop与其他技术和框架 33
2.5.1 Hadoop与关系型数据库 33
2.5.2 Hadoop与云计算 34
2.6 实验2:快速搭建Hadoop集群环境 34
2.6.1 准备工作 34
2.6.2 安装配置虚拟机 35
2.6.3 配置固定IP并测试 35
2.6.4 克隆虚拟机 36
2.6.5 配置SSH无密码登录 36
2.6.6 配置时间同步服务 37
2.6.7 安装JDK 38
2.6.8 上传、解压Hadoop安装包 38
2.6.9 配置Hadoop 38
2.6.10 启动集群 41
2.6.11 查看集群监控 41
2.7 习题与思考 42
第3章 分布式文件系统HDFS 43
3.1 什么是HDFS 43
3.1.1 文件系统和计算机集群 43
3.1.2 分布式文件系统 43
3.1.3 HDFS 45
3.1.4 HDFS的优点和缺点 48
3.2 HDFS中的概念 48
3.2.1 块 49
3.2.2 三级寻址和元数据 49
3.2.3 命名空间 50
3.2.4 名称节点 51
3.2.5 第二名称节点 52
3.2.6 数据节点 53
3.2.7 客户端 54
3.2.8 心跳机制 54
3.2.9 块缓存 54
3.3 HDFS的存储原理 55
3.3.1 冗余存储机制 55
3.3.2 数据存取策略 55
3.3.3 数据的错误与恢复 56
3.4 HDFS的数据读写过程 57
3.4.1 RPC实现流程 57
3.4.2 文件的读流程 58
3.4.3 文件的写流程 59
3.5 HDFS的命令、界面及API 60
3.5.1 HDFS的主要命令 60
3.5.2 HDFS的Web界面 61
3.5.3 HDFS常用的Java API 61
3.6 实验3:HDFS编程实践 62
3.6.1 在Eclipse中创建项目 63
3.6.2 为项目添加需要用到的JAR包 63
3.6.3 编写Java应用程序 63
3.6.4 编译运行程序 65
3.6.5 应用程序的部署 65
3.7 习题与思考 67
第4章 NoSQL数据库 68
4.1 关系型数据库 68
4.1.1 关系模型 69
4.1.2 设计数据库 71
4.1.3 使用数据库 72
4.1.4 数据库恢复和数据保护 73
4.2 非关系型数据库NoSQL 74
4.2.1 关系型数据库和NoSQL的比较 75
4.2.2 NoSQL的基础理论 76
4.3 NoSQL数据库的分类 79
4.3.1 列族数据库 80
4.3.2 键值数据库 82
4.3.3 文档数据库 83
4.3.4 图数据库 84
4.3.5 四种NoSQL数据库的比较 85
4.4 列族数据库—HBase 85
4.4.1 HBase概述 85
4.4.2 HBase的数据模型 86
4.4.3 HBase的实现原理 88
4.4.4 HBase的系统架构 91
4.5 实验4:HBase的基本操作 92
4.5.1 HBase的安装 92
4.5.2 HBase的配置 93
4.5.3 使用Shell命令操作HBase 95
4.5.4 用程序操作HBase 96
4.6 文档数据库MongoDB 100
4.6.1 MongoDB概述 100
4.6.2 MongoDB的体系结构 101
4.6.3 MongoDB的数据类型 104
4.7 实验5:MongoDB的基本操作 107
4.7.1 MongoDB的安装 107
4.7.2 MongoDB的基本操作 108
4.7.3 MongoDB的索引操作 114
4.7.4 MongoDB的聚合操作 115
4.8 习题与思考 117
第5章 MapReduce原理 118
5.1 什么是MapReduce 118
5.1.1 MapReduce模型 118
5.1.2 MapReduce函数 120
5.2 MapReduce的体系架构 122
5.2.1 MapReduce的工作主体 122
5.2.2 MapReduce的工作流程 124
5.2.3 MapReduce的执行过程 125
5.2.4 Map任务和Reduce任务 127
5.3 Shuffle的具体过程 127
5.3.1 Shuffle过程简介 128
5.3.2 输入数据和执行Map任务 129
5.3.3 Partition操作 129
5.3.4 Sort操作 130
5.3.5 Combine操作 130
5.3.6 Merge操作 131
5.4 MapReduce的数学应用 132
5.4.1 在关系代数运算中的应用 132
5.4.2 分组与聚合运算 133
5.4.3 矩阵-向量乘法 133
5.4.4 矩阵乘法 134
5.5 习题与思考 135
第6章 MapReduce实践案例 136
6.1 实验6:WordCount 136
6.1.1 实验需求 136
6.1.2 实验设计 136
6.1.3 执行过程 137
6.1.4 实验分析 138
6.1.5 WordCount编程实践 139
6.2 实验7:MapReduce统计气象数据 142
6.2.1 实验需求 142
6.2.2 数据格式 142
6.2.3 实验分析 143
6.3 习题与思考 147
第7章 基于大数据的聚类分析 148
7.1 聚类分析概述 148
7.1.1 聚类分析的定义 148
7.1.2 聚类算法的分类 149
7.1.3 相似性的测度 150
7.2 基于划分的聚类算法k-means 153
7.2.1 k-means聚类算法 153
7.2.2 k-means聚类算法的拓展 155
7.3 层次聚类算法 157
7.3.1 AGNES算法 158
7.3.2 DIANA算法 160
7.4 实验8:k-means算法的MapReduce实现 161
7.4.1 实验内容与实验要求 161
7.4.2 实验数据与实验目标 162
7.4.3 实现思路 162
7.4.4 代码实现 163
7.4.5 实验结果 164
7.5 习题与思考 166
第8章 基于大数据的分类分析 167
8.1 分类问题概述 167
8.1.1 学习阶段 167
8.1.2 分类阶段 168
8.2 k-*近邻算法 169
8.2.1 KNN算法原理 169
8.2.2 KNN算法的特点及改进 172
8.3 决策树分类方法 173
8.3.1 决策树概述 173
8.3.2 信息论 177
8.3.3 ID3算法 179
8.3.4 算法改进:C4.5算法 183
8.4 贝叶斯分类方法 187
8.4.1 贝叶斯定理 188
8.4.2 朴素贝叶斯分类器 189
8.4.3 朴素贝叶斯分类方法的改进 192
8.5 习题与思考 195
第9章 基于大数据的预测分析 196
9.1 大数据预测方法概述 196
9.1.1 预测的定义 196
9.1.2 预测方法的划分 196
9.1.3 预测的基本步骤 199
9.2 回归分析预测 201
9.2.1 回归分析概述 201
9.2.2 线性回归 201
9.2.3 多项式回归 204
9.2.4 逻辑斯谛回归 205
9.3 时间序列预测 208
9.3.1 时间序列概述 208
9.3.2 时间序列平滑法 210
9.4 习题与思考 215
第10章 大数据在搜索引擎中的应用 216
10.1 应用现状概述 216
10.1.1 搜索引擎的概念 216
10.1.2 国内外搜索引擎的应用现状 216
10.1.3 大数据与搜索引擎优化 217
10.2 基本实现原理 217
10.3 搜索引擎的大数据时代 221
10.3.1 谷歌的大数据应用 221
10.3.2 百度的大数据应用 222
10.3.3 雅虎的大数据应用 224
10.4 习题与思考 224
第11章 大数据在推荐系统中的应用 226
11.1 应用现状概述 226
11.1.1 推荐系统的概念 226
11.1.2 推荐系统的应用 227
11.2 基本实现原理 227
11.2.1 推荐系统模型 227
11.2.2 推荐系统的主要算法 228
11.2.3 协同过滤实践 233
11.3 应用案例 236
11.3.1 智能推荐引擎 237
11.3.2 智能推荐引擎系统架构 237
11.3.3 用户画像 238
11.4 习题与思考 238
第12章 大数据在其他行业中的应用 239
12.1 大数据行业应用
展开全部

大数据技术原理与应用 节选

第1章 大数据概述 1.1 什么是大数据 1.1.1 关于大数据的预言 维克托 迈尔-舍恩伯格(Viktor Mayer-Sch*nberger)是一位著名的数据科学家,先后有100多篇论文公开发表在《科学》《自然》等学术期刊上,通常被认为是*早洞察大数据时代来临的数据科学家之一。当大数据的概念还处在方兴未艾、众说纷纭的时候,他在《大数据时代:生活、工作与思维的大变革》一书中对人们的思维模式、商业模式、管理模式的变革进行了细致的描述,认为世界的本质是数据,大数据时代即将来临,从因果关系到相关关系的思维变革是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心 。在今天看来,书中很多观点和内容仍然对大数据技术及应用的发展做了极为精准的预言。那么,这个预言成真背后的技术推动力又是什么呢? 首先,让我们看维克托 迈尔-舍恩伯格的预言的关键点。 (1)世界的本质是数据。世界的本质的确是人类社会数千年争论而未有定论的问题之一。数学家毕达哥拉斯认为世界的本质是数,因为数是描述事物的通用语言;爱因斯坦坚持自然唯物论,用数学描述宏观的宇宙现象;很多学者也有自己对于世界本质的理解。因此,对于世界本质问题而言,我们可以不采纳任何观点,但不可否认的是,数据可以自然地描述客观世界,而主观认知也离不开数据,数据的存在既客观又不可或缺。 (2)注重全样而非抽样。在人类历史中的绝大多数时间里,通过分析海量数据得到精确的结论是一种挑战。这是因为过去我们只能对少量数据(小数据)进行分析,虽然统计学家研究出许多放大样本可解释性的方法,但是直到现在,我们依然没有完全意识到自己拥有了能够收集和处理大规模数据的能力,还是习惯于在假设之下做很多事情。例如:人们一次次地观察天象,却始终得不到星系全图;一次次测量水稻的长势,却不知道明年是否会丰收;一次次积累临床经验,却不知道下一次流行病会从何时何地开始 (3)注重融合而非精确。人们通常会把测量的精确程度视为科学发展水平的重要标志,测量方法越精确,得到的结果越理想。然而,许多人忽视了一个问题,那就是对精确度要求苛刻的根本原因是收集到的信息有限,而有限的信息意味着细微的错误会被放大。如今,不断涌现的新技术允许不精确、接受适量错误的存在、注重减轻数据的混杂程度,从而利用简单算法进行大规模数据的批量计算,已成为大数据时代的一种特征。 (4)注重相关而非因果。因果定律一直以来被视为科学研究和社会生产的铁律。的确,知道“为什么”仿佛在很多时候比知道“是什么”看上去更加有意义,但是,“为什么”在大数据中显得并不是那么重要,而“是什么”看上去更加能够产生收益。例如,基于大数据技术的推荐系统为许多公司带来了利润,但是公司好像从来都不会关心为什么(某个)客户喜欢(某些)商品,而只是根据他们喜欢的那些商品列表,推算出他们有可能感兴趣的其他商品,再把那些商品推荐给客户。 (5)思维模式的转变。从以上几点我们可以看出,大数据带来了人们在认知、探索、阐释和生产上思维的若干转变,这些转变是相互联系的。首先,要分析与某事物相关的所有数据,而不是分析少量的数据样本;其次,要乐于接受数据的纷繁复杂,不再过于追求精确性;*后,不再探求难以捉摸的因果关系,转而关注事物的相关关系。 (6)商业模式的转变。如今,对于很多行业而言,数据成为重要的生产要素,如何利用大规模的数据成为赢得竞争的关键。随着“互联网+数据”和工业4.0战略的逐步推进,以大数据为核心的技术具有前瞻性、带动性和精准性的特点,能够有效促进制造业与服务业融合,提升制造业企业的竞争力和创新能力。 (7)管理模式的转变。大数据为人类社会的生产、生活管理带来了改变。毕竟,大数据的核心思想就是用规模剧增来改变现状,而数据获取成本的降低与分析工具的先进,使社会管理做出相应的转变。大数据对管理影响*大的方面包括隐私保护、数据安全、法治建设,乃至政府、教育以及军事管理等。 另外,《大数据时代:生活、工作与思维的大变革》还为我们提供了丰富的案例,充分解读大数据将为人类社会的生活、工作和思维带来一系列冲击,为当时需要看清数据时代发展趋势的人们提供了清晰的思路。该书所提倡的全样本分析,仍是指导大数据技术发展的重要指标,本书认为,支持这种全样本分析的技术、方法、产品以及其他相关事物,即是大数据。 1.1.2 触发大数据产生的三种技术 如今,大数据已经对各行各业产生了影响。物联网、智能家居、智能交通、社交网络快速发展,新型移动设备、个人穿戴设备、感知设备不断涌现,数据量呈现爆炸式增长,数据的产生已经不受时空控制。那么,是哪些技术因素导致了大数据时代的来临呢? 1. 存储技术不断升级、存储成本不断降低 大数据产生的**个重要因素是数据存储技术的迅速发展。1965年,英特尔创始人戈登 摩尔(Gordon Moore)提出著名的摩尔定律,即当价格固定时,每隔18~24个月,相同多的钱能买到的设备上的元器件数目会增加1倍,设备性能也会提升1倍。直至2012年,计算机设备的发展总体规律依然符合摩尔定律,数据处理速度大幅增加,而生产成本却逐渐降低。另外,由于存储技术的提升、制造存储设备的成本下降,人们更倾向于将全部数据保存下来,而不会考虑保存什么。购买更多的存储设备又促使生产商制造更大容量的产品来满足市场需求,在这样滚雪球式的发展下,人们开始谋求用更先进的数据分析工具从海量数据中挖掘价值。 2. 传输速度不断增加、移动网络迅速发展 这里的数据传输有两个方面:一方面是指数据处理设备[如主板、内存和中央处理器(central processing unit,CPU)]中的数据总线的传输速率[总线输入/输出(input/output,I/O)];另一方面是指互联网的数据传输。数据总线是将信息以一个或多个源部件传送到一个或多个目的部件的一组传输线。通俗地说,就是多个计算机部件之间的连接线,通常用MHz来描述总线的传输速度。同时,网络技术的发展也带来了数据传输的飞跃。1975年**条光纤通信系统投入商用,数据传输速率为45 Mbit/s,而到2021年,第五代移动通信技术(5th generation mobile communication technology,5G)已经开始普及,理论传输速率达到了10 Gbit/s。 3. 数据处理能力大幅提升、单机处理能力遭遇瓶颈 CPU性能的提升大大提高了数据处理的能力,使我们可以更快地处理不断累积的海量数据。从20世纪80年代至今,CPU制造工艺不断精进,随之而来的是数据处理能力呈几何级数上升。在过去的40多年里,CPU的处理速度已经从10 MHz提高到10 GHz。 CPU处理速度的增加一直遵循摩尔定律,但是,到了2012年之后,CPU的处理速度的增速逐渐趋缓,主要原因是在制造工艺上,CPU内部元件的密度已经达到峰值(纳米级),而提高单个CPU的处理速度需要付出极大的研发代价。这样就带来一个突出的矛盾:数据的存储和传输可以无限增长,而单机处理数据的能力遇到瓶颈,这就催生了大数据技术的基础技术—分布式存储与分布式计算。 1.1.3 大数据形成中遇到的问题及解决方案 在这里我们看一个案例:一家电信运营商在2018年购入了两台惠普小型机,每台小型机有512 GB内存,128个CPU,且都安装了*新版本的关系型数据库,每台小型机的I/O和计算能力很强。其中一台用于入库操作(入库操作不能是多机器操作,否则容易引起存取冲突,使运行变慢),另外一台用于查询操作。整个系统的存储用的是惠普的虚拟化存储,里面用了超过3000个硬盘,每个硬盘的存储量是1 TB。 现在遇到两个问题:**,入库瓶颈。系统采用Insert操作来入库,但是,随着业务量的增加,有越来越多的数据需要入库,操作的速度要求也越来越高,慢慢地,一台机器已经不能满足入库需求。第二,查询瓶颈。在数据量越来越大的情况下,查询响应速度越来越慢,这样下去显然会出现问题。那么如何解决呢?对于这两台小型机来说,CPU和内存的扩展空间已达到极限。如果重新购置更高级的机器,将会浪费时间成本,而仅凭这两台小型机,已经捉襟见肘。 从以上案例中,我们归纳出以下问题。 (1)数据存储量越来越大,无论入库操作还是查询操作,如果采用小型机与传统数据库搭配,速度都将越来越慢,不久会出现性能瓶颈。 (2)系统的实时性和响应时间要求越来越高。在很多场景下,企业需要立刻得到分析结果。 (3)数学模型越来越复杂。以前,系统中用到的数学模型较简单(计算平均数、方差、直方图等),但是一些数据分析所用到的数学模型远非这么简单。也就是说,不仅计算规模在扩展,算法的复杂度也在呈指数级增长。 这样,如果想要满足企业的需求,就需要计算能力越来越强的系统,但是成本会越来越高,不仅如此,即使购买更高级的机器,也仍然会达到其计算能力的瓶颈。那么,如何提供这样强大的计算能力呢? 光靠增加或置换小型机显然已经不行了。因此,人们期待以下解决方案。 (1)新系统能够完美解决性能瓶颈,并且在未来一段时间不容易出现新的瓶颈。*好的情况是:一旦出现性能瓶颈,那么直接购买机器加入计算集群即可,也就是说,这样的集群可以无限扩充节点。 (2)新系统能够使过去的技能平稳过渡。例如,公司员工以前用的是结构化查询语言(structured query language,SQL)进行数据统计,用R语言进行数据分析,那么在新的体系里面,员工的这些技能*好还可以用下去。 (3)转移新平台的转移成本要低。转移成本包括平台软硬件的成本、再次开发的成本、员工技能培训的成本以及维护成本。 这样的一组解决方案,在如今看来,正是大数据系统的通用解决方案。即利用多个机器组成的分布式集群,将数据分割并存储在不同的机器中,每台机器利用相同的算法处理不同的数据部分,再将处理结果有机整合并呈现。 1.1.4 各方对大数据的定义 对大数据的概念界定,从业各方都有各自的看法。维基百科的定义是:大数据指的是需要处理的资料量规模巨大,无法在合理时间内,通过当前主流的软件工具获取、管理、处理并整理的资料,它成为帮助企业经营决策的资讯。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)发布的研究报告中对大数据的定义是:大数据是用来描述我们在网络的、数字的、遍布传感器的、信息驱动的世界中呈现出的数据泛滥的常用语。研究机构加特纳(Gartner)对大数据的定义是:大数据是指需要借助新的处理模式才能拥有更强的决策力、洞察发现力和流程优化能力的具有海量、多样化和高增长率等特点的信息资产。 维基百科中的定义缺乏精确性,常用软件工具的范畴难以界定;NIST片面强调数据本身的量、种类和增长速度;Gartner给出的定义偏向于对数据特征的宏观描述。我们可以看到,就“大数据”这一提法本身来讲,具有明显的时代相对性,今天的大数据在未来可能就不一定是大数据,或者说从业界普遍来看是大数据,但对一些领先者来说或许已经习以为常了。因此,我们将大数据分为狭义的大数据和广义的大数据两个层面进行解读。 狭义的大数据,主要是指与大量数据相关的关键技术及其在各个领域中的应用,以及从各种各样类型的数据中,快速地获得有价值的信息的能力。一方面,大数据反映的是数据规模大到无法在一定时间内用一般性的常规软件工具对其内容进行抓取、管理和处理的数据集合;另一方面,大数据还指海量数据的获取、存储、管理、计算分析、挖掘与应用的全新技术体系。 广义的大数据,囊括了大数据技术、大数据工程、大数据科学、大数据应用等所有相关的领域。大数据工程

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服