欢迎光临中图网 请 | 注册
> >>
数据科学与工程导论

数据科学与工程导论

出版社:华东师范大学出版社出版时间:2021-01-01
开本: 26cm 页数: 505页
本类榜单:教材销量榜
中 图 价:¥48.3(7.0折) 定价  ¥69.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

数据科学与工程导论 版权信息

数据科学与工程导论 本书特色

本书围绕数据全生命周期介绍了数据科学与工程的基本理论,具体包括七部分内容:部分绪论;第二部分大规模数据的采集、加工、管理和数据工程;第三部分数据可视化;第四部分数据分析;第五部分数据应用;第六部分数据科学伦理;第七部分数据科学的不错实现。

数据科学与工程导论 内容简介

本书分为四部分, 数据科学与工程概述、数据与计算的基础设施、数据分析的原理与方法、数据应用与社会问题。内容包括: 数据思维与问题求解 ; 数据的模型与结构等。

数据科学与工程导论 目录

**部分 数据科学与工程概述
第1章
绪论
1.1 信息文明与数据简史
1.2 数据科学与工程的基本内涵
1.3 第四范式:数据密集型科学
1.4 数据科学与工程的应用
1.5 实践:以Git与Python为中心
1.6 本章小结
1.7 习题与实践
第2章
数据思维与问题求解
2.1 问题求解与思维方式
2.2 计算思维与数据思维
2.3 计算思维与数据思维实例
2.4 实践:Python问题求解
2.5 本章小结
2.6 习题与实践

第二部分 数据与计算的基础设施
第3章
数据的模型与结构
3.1 比特与数据
3.2 进制与数据表达
3.3 数据的编码与存储
3.4 数据的模型
3.5 数据的结构
3.6 实践:Python数据结构
3.7 本章小结
3.8 习题与实践
第4章
数据的计算与程序表达
4.1 数据的计算
4.2 算法分析
4.3 算法的实例
4.4 计算机编程语言
4.5 实践:Python算法
4.6 本章小结
4.7 习题与实践
第5章
计算基础设施
5.1 数据处理的通用机器
5.2 程序执行过程
5.3 计算机系统结构
5.4 基础设施软件
5.5 云计算与数据中心
5.6 实践:基础设施数据采集与分析
5.7 本章小结
5.8 习题与实践
第6章
数据的全生命周期管理
6.1 数据采集
6.2 数据存储
6.3 数据管理
6.4 数据计算
6.5 数据分析
6.6 数据展示
6.7 实践:Python网络爬虫
6.8 本章小结
6.9 习题与实践
第7章
数据库系统
7.1 数据库的起源与发展
7.2 关系数据库
7.3 数据仓库与OLAP
7.4 SQL语言
7.5 实践:SQL数据处理与分析
7.6 本章小结
7.7 习题与实践
第8章
大数据系统
8.1 大数据的基本概念
8.2 Hadoop和Spark生态
8.3 SQL与Hadoop的组合
8.4 大数据系统的发展与未来
8.5 实践:Hadoop与Spark大数据处理
8.6 本章小结
8.7 习题与实践

第三部分 数据分析的原理与方法
第9章
数据科学过程
9.1 数据科学过程基础
9.2 数据科学工作流
9.3 实践:KNIME数据科学工作流
9.4 本章小结
9.5 习题与实践
第10章
统计分析的原理
10.1 数据科学的数学基础
10.2 概率与统计基础
10.3 统计建模:线性回归模型
10.4 数据分析的工具
10.5 实践:Python统计分析
10.6 本章小结
10.7 习题与实践
第11章
机器学习方法
11.1 机器学习发展历史
11.2 机器学习方法
11.3 机器学习*新发展
11.4 经典机器学习算法
11.5 实践:Python机器学习
11.6 本章小结
11.7 习题与实践
第12章
深度学习
12.1 深度学习介绍
12.2 深度学习价值
12.3 误差反向传播算法
12.4 卷积神经网络
12.5 深度学习工具
12.6 实践:Python深度学习——手写汉字识别
12.7 本章小结
12.8 习题与实践
第13章
数据挖掘基础
13.1 初识数据挖掘
13.2 数据挖掘技术
13.3 典型数据挖掘算法
13.4 实践:Python图像分类
13.5 本章小结
13.6 习题与实践
第14章
非结构化数据挖掘
14.1 自然语言处理
14.2 语音信号处理
14.3 图像处理与理解
14.4 实践:Python文本数据挖掘
14.5 本章小结
14.6 习题与实践

第四部分 数据应用与社会问题
第15章
数据综合应用
15.1 搜索引擎
15.2 智能运维
15.3 开源数字年报
15.4 本章小结
15.5 习题与实践
第16章
数据道德与职业行为准则
16.1 开放的世界
16.2 数据科学与工程职业规划
16.3 数据隐私与社会问题
16.4 数据与人工智能伦理
16.5 本章小结
16.6 习题与实践

文献阅读
参考文献
附录

算法 程序列表
第1章 绪论 3
程序1.1 **个Python数据科学程序 36

第2章 数据思维与问题求解 39
程序2.1 递归加法 52
程序2.2 *小值_循环 52
程序2.3 *小值_递归 53
程序2.4 *小值_分治 54
程序2.5 验证帕斯卡的分析 56
程序2.6 估计π值 58
程序2.7 开平方1 “笨办法” 62
程序2.8 开平方2 二分法 63
程序2.9 开平方3 牛顿法 64
程序2.10 开平方4 蒙特卡罗法 66

第3章 数据的模型与结构 71
程序3.1 变量的赋值 97
程序3.2 栈的实现 97
程序3.3 简单树的实现 99
程序3.4 用列表创建简单树 99
程序3.5 二叉树类的定义 99
程序3.6 二叉树中插入左子节点 100
程序3.7 二叉树中插入右子节点 100
程序3.8 获取和设置根值以及获得左右子树 100

第4章 数据的计算与程序表达 103
算法4.1 函数search for X 112
程序4.2 交换变量a和b的值 117
算法4.3 冒泡排序 118
算法4.4 汉诺塔问题的解 120
算法4.5 树排序 124
程序4.6 冒泡排序 130
程序4.7 选择排序 132
程序4.8 插入排序 133
程序4.9 快速排序 135
程序4.10 希尔排序 137

第5章 计算基础设施 138
程序5.1 替换函数1 167
程序5.2 替换函数2 167
程序5.3 替换函数3 167
程序5.4 替换函数4 167
程序5.5 程序性能测试 168

第6章 数据的全生命周期管理 171
程序6.1 散点图 191
程序6.2 网络爬虫 198
程序6.3 绘制散点图 200
程序6.4 绘制正弦、余弦曲线 200
程序6.5 绘制等高线图 201

第7章 数据库系统 204
程序7.1 查询客户总消费额 212
程序7.2 数据库事务 213
程序7.3 创建表 228
程序7.4 SQL查询1 228
程序7.5 SQL查询2 229
程序7.6 SQL查询3 229
程序7.7 SQL查询4 230
程序7.8 SQL查询5 230
程序7.9 SQL查询6 231
程序7.10 SQL分析1 231
程序7.11 SQL分析2 231
程序7.12 SQL分析3 232
程序7.13 SQL分析4 232
程序7.14 SQL分析5 232

第8章 大数据系统 235
程序8.1 map代码 258
程序8.2 reduce代码 258
程序8.3 用Spark进行WordCount 261

第10章 统计分析的原理 296
程序10.1 文本词频统计 323
程序10.2 线性回归模型 325

第11章 机器学习方法 329
程序11.1 损失函数 350
程序11.2 梯度计算函数 350
程序11.3 梯度下降算法 351

第12章 深度学习 359
程序12.1 基于VGG模型的手写汉字识别模型 384

第13章 数据挖掘基础 387
程序13.1 KNN算法模型 413
程序13.2 训练KNN 414

第14章 非结构化数据挖掘 417
程序14.1 词云制作 433
程序14.2 文本分类实践 434

第15章 数据综合应用 445
程序15.1 使用倒排索引的检索处理 455
程序15.2 基于文档和查询关联度的检索 456
程序15.3 基于查询单词的文档和查询关联度的检索 457
程序15.4 基于排序的索引构建 458
程序15.5 基于合并的索引构建 459
展开全部

数据科学与工程导论 节选

数据科学与工程核心课程的系列教材终于要面世了,这是一件鼓舞人心的事。作为华东师范大学数据学院的发起者和见证人,核心课程和系列教材一直是我心心念念的事情。值此系列教材出版发行之际,我很高兴能被邀请写几句话,做个回顾,分享一些感悟,也展望一下未来。 借着大数据热的东风,依托何积丰院士在2007年倡导成立的华东师范大学海量计算研究所,2012年6月在时任SAP公司CTO史维学博士(Dr. Vishal Sikka)的支持下,我们成立了华东师范大学云计算与大数据研究中心。2013年9月,学校发起成立作为二级独立实体的数据科学与工程研究院,开始在软件工程一级学科下自设数据科学与工程二级学科,开展博士研究生和硕士研究生的培养工作。在进行研究生培养的探索过程中,我们深切感受到计算机类的本科生人才培养需要反思和改革。因此,到了2016年9月,研究院改制成数据科学与工程学院,随后就开始招收数据科学与工程专业的本科生,**届本科生已于2020年毕业,这就是我们学院和专业的简单历史。经过这么几年的实践和思考,我们越发坚信当年对“数据科学与工程”这一名称的选择,“数据学院”和“数据专业”已经得到越来越多的认可,学院的师生也逐渐接受“数据人”这一称呼。 这里我想分享以下几方面的感悟:为什么要办数据专业?怎么办数据专业?教材为什么很重要?对人才培养有什么贡献? 为什么要办数据专业?数据是新能源,这是大家耳熟能详的一句话。说到能源,我们首先想到的是石油,所以大家就习惯把数据比喻成石油。但是,在我们看来,“新能源”对应的英文应该是“New Power”。“Data is Power”,这是我们的基本信念,也是我们要办数据学院的根本动机。数据是人类文明史上的第三个重要的Power,之前的两个Power是蒸汽能(Steam Power)和电能(Electric Power),它们分别引发了**次和第二次工业革命。如果说蒸汽能和电能造就了从西方世界开始的两百多年的工业文明,数据能(Data Power)将把人类带入数字文明时代。数据是数字经济发展的重要生产要素,这个生产要素不同于土地、劳动力,也不同于资本、技术。如果要给数据找一个恰当的比拟物,也许只有19世纪末伟大的发明家尼古拉·特斯拉发明的交流电。数据是新时代的交流电,就像20世纪,交流电给世界带来的深刻变化一样,随着人们对数据能(Data Power)认识的提高,我们将进入一个“未来已来,一切重构”的时代。数据学院就像一百多年前的电力学院或电气学院。 怎么办数据专业?我们数据学院脱胎于软件工程学院,在此以前还有计算机科学与工程学院,数据相关的研究和偏向管理的图书情报方向的信息系统学科及专业也密切相关,应用数学、概率统计更是数据分析和处理的理论基础,不可或缺。到底什么样的专业才算是数据专业?起初的时候,这对我们来说基本上可以说是一个“灵魂拷问”。为此,我们发起成立了由国内十五所高校三十多位知名教授组成的“高校数据科学与工程专业建设协作组”。 并且以协作组成员为班底,成立了数据科学与工程系列教材编委会,除了协作组成员,还邀请了多位有丰富教材编写经验的华东师范大学教师加入编委会,共同策划教材的内容安排。 我们相信,有了先进的理念,再加上集体的力量,数据专业建设的探索之路就能走通。截至2020年11月,协作组已经召开了四次研讨会,确定了被称为CST的专业建设路线图,C代表Curriculum(培养计划),S代表Syllabus(课程大纲),T代表Textbook(教材建设)。在得知我们的工作后,ACM/IEEE计算机工程学科规范主席约翰·因帕利亚佐(John Impagliazzo)教授邀请我们参与了ACM/IEEE数据科学学科规范的制定。协作组经过讨论达成共识:专业课程分为基础课、核心课、方向课三类,核心课是体现专业区分度的一组课程。与数据专业(DSE)*相近的专业就是计算机科学与工程(CSE)及软件工程(SE)两个专业,我们确定的**批DSE区别于CSE和SE 的8门核心课程是:数据科学与工程导论、数据科学与工程数学基础、数据科学与工程算法基础、应用统计与机器学习、当代数据管理系统、当代人工智能、分布式计算系统、云计算系统。随后我们又确定两门课纳入这个系列,分别是:区块链导论——原理、技术与应用,数据中台初阶教程。数据专业作为一个新专业,三类课程的边界还不清晰,我们将关注重点放在核心课程上面,核心课有遗漏的知识点可以纳入基础课或方向课。这样可以保证知识体系的完整性,简单起步,快速迭代。随着实践和认识的深入,逐渐明晰三类课程的边界,形成完善的培养计划。 教材为什么很重要?建设好一个专业,确定培养计划和课程体系固然很重要,但落实在根本上是教材。一套好的教材是建成一个好的专业的前提。放眼看去,无论是国内还是国外,无论是具体某个高校还是国家区域层面,这都是不争的事实,即好的专业都有成体系的好的教材。当然,现在的教材已经不仅仅指单纯的一本教科书,还有深层次的内容,比如说具体的教学内容和教学方式。我们都知道,教材是知识的结晶,是站到巨人肩膀上的台阶。在自然科学领域,确实如此,一百年前我们民族的仁人志士呼唤“赛先生”,在中华大地上科学的传播带来了翻天覆地的变化。在更广泛的领域,教材也还是技术、工艺和文化的传承,是产业发展的助推器。拿信息技术来举例,技术的源头和产业的发祥地都在美国和欧洲,像IBM、Lucent、Oracle等跨国企业在我国商业上取得的巨大成功无一不与他们重视教材开发密切相关。试想一下,我们的学生在课堂上学的都是他们研究和研发的东西,等走上工作岗位,自然会对熟悉的技术和系统有亲近感,这应该是产业或产品生态*重要的一个环节。21世纪以来,随着互联网的蓬勃发展,人们已经深刻认识到,互联网改变世界。在人类的文明史上,没有任何一项科研成果像互联网这样深刻地改变人、改变世界。互联网之所以能改变世界,是因为它真正发挥了数据的威力。互联网实现了信息技术发展从“以计算为中心”到“以数据为中心”的路径转变。用“昔日王谢堂前燕,飞入寻常百姓家”来形容很多我们以前甚至当前教材上的一些内容,可以说毫不为过。以互联网为代表的新型产业的发展,极大地推动了技术的进步,我们已经到了可以编写自己的教材,形成自己的技术体系和科学理论体系的时候了。我们是现代科学的后来者,已经习惯了从科学到技术再到应用的路径,现在有了成功的应用,企业也发展出了领先的技术,学界可以在此基础上发展出技术体系和科学理论体系,应用、技术和科学的联动才是真正的创新之路。 对人才培养有什么贡献?在信息技术领域,迄今为止我们更多地是参考或沿袭了西方发达国家的培养计划和教材体系。在改革开放以来的四十年,这种“拿来主义”的做法很有效,培养了大量的人才,推动了我国的社会经济发展。但总的来说,我们的高校在这一领域更像是在培养“驾驶员”,培养开车的人,现在到了需要我们来培养自己的造车人的时候了。技术发展趋势如此,国际形势也对我们提出了这样的要求。我们处在一个大变局的时代,世界充满不确定性,开放和创新是应对不确定性的不二之选。创新成为人才培养的**性原理,更新观念、变革教育、卓越育人是我们华东师范大学新时期人才培养的基本理念。人才培养是大学的**要务,科学研究、社会服务和文化传承是大学的另外三大职能,大学通过这三大职能的实现可以更好地服务于人才培养。人工智能时代*稀缺的是想象力,想象力是比知识更重要的东西。如何在传播知识、传承文化的同时,保护和激发学生的想象力,这也许是当前教育需要关注的。激发想象力,培养创新能力,这是数据专业核心课程系列教材建设的指导思想,我们愿意为之付出,久久为功地建设这套数据专业核心课程系列教材就是我们践行以上认识和理解的一个具体行动。 *后,要特别表示感谢。感谢华东师范大学出版社和高等教育出版社的支持和鼓励,感谢数据科学与工程专业建设协助组的各位老师的通力协作和辛勤劳动,也要感谢数据学院师生的信任和付出。心有所信,方能行远;因为相信,所以看见。希望作为探路者而付出的所有艰辛能够成为我们学术和事业生涯中的一笔重要财富。 “The best way to predict the future is to invent it.”—— Alan Kay “Imagination is more important than knowledge. For knowledge is limited to all we now know and understand, while imagination embraces the entire world, and all there ever will be to know and understand.” ——Albert Einstein 2020年11月

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服