中图网

>

程序设计

>

其他

Hadoop数据分析

作者：(美)本杰明·班福特(Benjamin

出版社：人民邮电出版社出版时间：2018-04-01

开本： 16开 页数： 211

本类榜单：计算机/网络销量榜

中图价:¥44.9(6.5折) 定价 ~~¥69.0~~ 登录后可看到会员价

暂时缺货收藏

运费6元，满39元免运费

?新疆、西藏除外

本类五星书更多>

>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥38.8¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥49.3¥69
>
第一行代码Android

第一行代码Android

¥58.4¥99
>
深度学习

深度学习

¥92.4¥168
>
Unreal Engine 4蓝图完全学习教程

Unreal Engine 4蓝图完全学习教程

¥72.2¥168
>
深入理解计算机系统-原书第3版

深入理解计算机系统-原书第3版

¥104.3¥139
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

¥21¥49.9

买过本商品的人还买了

Vim实用技巧-(第2版)
(英)尼尔(DrewNeil)著;杨
¥37.2~~¥59.0~~

商品详情
商品评论(0条)

中图价:¥44.9 暂时缺货

版权信息
本书特色
内容简介
目录
作者简介

Hadoop数据分析版权信息

ISBN：9787115479648
条形码：9787115479648 ; 978-7-115-47964-8
装帧：一般胶版纸
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
程序设计
>
其他

Hadoop数据分析本书特色

通过提供分布式数据存储和并行计算框架，Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览，为数据科学家深入了解特定主题领域铺平道路，从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分，* 一部分从非常高的层次介绍分布式计算，讨论如何在集群上运行计算；* 二部分则重点关注数据科学家应该了解的工具和技术，意在为各种分析和大规模数据管理提供动力。

Hadoop数据分析内容简介

通过提供分布式数据存储和并行计算框架，Hadoop已经从集群计算的抽象演变成了大数据操作系统。本书从数据科学的视角，介绍Hadoop集群计算和分析，重点关注可构建的具体分析、数据仓储技术和高阶数据流。书中主要内容如下： ·Hadoop和集群计算背后的核心概念 ·使用设计模式和并行分析算法创建分布式数据分析作业 ·在分布式环境下使用Apache Hive和HBase进行数据管理、数据挖掘和数据仓储 ·使用Sqoop和Apache Flume从关系数据库采集数据 ·使用Apache Pig和Spark DataFrame编写复杂的Hadoop和Spark应用程序 ·通过Spark MLlib运用分类、聚类和协同过滤等机器学习技术 “我还未见过比本书更好的Hadoop框架讲解。” ——Marck Vaisman，博思艾伦咨询公司数据科学家、乔治?华盛顿大学兼职教授、数据社区DC联合创始人 “每个概念都得以清晰明了的解读，在容易忽略细节的部分又都有补充资源，供读者深入学习，这对于专业人员和初学者都非常友好。本书中的讲解总是与示例相辅相成，让读者在学习之后又能投入实战，深入了解系统功能——我认为这才是熟悉新领域的关键所在。” ——Amazon读者

Hadoop数据分析目录

前言 ix

* 一部分　分布式计算入门

* 1章　数据产品时代 2

1.1　什么是数据产品 2

1.2　使用Hadoop构建大规模数据产品 4

1.2.1　利用大型数据集 4

1.2.2　数据产品中的Hadoop 5

1.3　数据科学流水线和Hadoop生态系统 6

1.4　小结 8

* 2 章　大数据操作系统 9

2.1　基本概念 10

2.2　Hadoop架构 11

2.2.1　Hadoop集群 12

2.2.2　HDFS 14

2.2.3　YARN 15

2.3　使用分布式文件系统 16

2.3.1　基本的文件系统操作 16

2.3.2　HDFS文件权限 18

2.3.3　其他HDFS接口 19

2.4　使用分布式计算 20

2.4.1　MapReduce：函数式编程模型 20

2.4.2　MapReduce：集群上的实现 22

2.4.3　不止一个MapReduce：作业链 27

2.5　向YARN 提交MapReduce 作业 28

2.6　小结 30

第3 章　Python 框架和Hadoop Streaming 31

3.1　Hadoop Streaming 32

3.1.1　使用Streaming在CSV 数据上运行计算 34

3.1.2　执行Streaming作业 38

3.2　Python 的MapReduce框架 39

3.2.1　短语计数 42

3.2.2　其他框架 45

3.3　MapReduce进阶 46

3.3.1　combiner 46

3.3.2　partitioner 47

3.3.3　作业链 47

3.4　小结 50

第4 章　Spark内存计算 52

4.1　Spark基础 53

4.1.1　Spark栈 54

4.1.2　RDD 55

4.1.3　使用RDD 编程 56

4.2　基于PySpark的交互性Spark 59

4.3　编写Spark应用程序 61

4.4　小结 67

第5 章　分布式分析和模式 69

5.1　键计算 70

5.1.1　复合键 71

5.1.2　键空间模式 74

5.1.3　pair与stripe 78

5.2　设计模式 80

5.2.1　概要 81

5.2.2　索引 85

5.2.3　过滤 90

5.3　迈向* 后一英里分析 95

5.3.1　模型拟合 96

5.3.2　模型验证 97

5.4　小结 98

* 二部分　大数据科学的工作流和工具

第6 章　数据挖掘和数据仓 102

6.1　Hive 结构化数据查询 103

6.1.1　Hive 命令行接口（CLI） 103

6.1.2　Hive 查询语言 104

6.1.3　Hive 数据分析 108

6.2　HBase 113

6.2.1　NoSQL 与列式数据库 114

6.2.2　HBase 实时分析 116

6.3　小结 122

第7 章　数据采集 123

7.1　使用Sqoop 导入关系数据 124

7.1.1　从MySQL 导入HDFS 124

7.1.2　从MySQL 导入Hive 126

7.1.3　从MySQL 导入HBase 128

7.2　使用Flume 获取流式数据 130

7.2.1　Flume 数据流 130

7.2.2　使用Flume 获取产品印象数据 133

7.3　小结 136

第8 章　使用高级API 进行分析 137

8.1　Pig 137

8.1.1　Pig Latin 138

8.1.2　数据类型 142

8.1.3　关系运算符 142

8.1.4　用户定义函数 143

8.1.5　Pig 小结 144

8.2　Spark 高级API 144

8.2.1　Spark SQL 146

8.2.2　DataFrame 148

8.3　小结 153

第9 章　机器学习 154

9.1　使用Spark 进行可扩展的机器学习 154

9.1.1　协同过滤 156

9.1.2　分类 161

9.1.3　聚类 163

9.2　小结 166

* 10 章　总结：分布式数据科学实战 167

10.1　数据产品生命周期 168

10.1.1　数据湖泊 169

10.1.2　数据采集 171

10.1.3　计算数据存储 172

10.2　机器学习生命周期 173

10.3　小结 175

附录A　创建Hadoop 伪分布式开发环境 176

附录B　安装Hadoop 生态系统产品 184

术语表 193

关于作者 211

关于封面 211

展开全部

Hadoop数据分析作者简介

Benjamin Bengfort，数据科学家，目前正在马里兰大学攻读博士学位，方向为机器学习和分布式计算；熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。 Jenny Kim，经验丰富的大数据工程师，不仅进行商业软件的开发，在学术界也有所建树，在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐