中图网文创礼盒,买2个减5元 读者节开场福利
欢迎光临中图网 请 | 注册

数据科学导引

作者:欧高炎
出版社:高等教育出版社出版时间:2017-12-01
开本: 32开 页数: 396
中 图 价:¥61.6(7.0折) 定价  ¥88.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

数据科学导引 版权信息

  • ISBN:9787040489118
  • 条形码:9787040489118 ; 978-7-04-048911-8
  • 装帧:暂无
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

数据科学导引 内容简介

  《数据科学导引》是博雅大数据学院针对新开设的“数据科学与大数据技术”专业编写的数据科学导论课程教材。  《数据科学导引》内容共分十五章,包括绪论、数据预处理、回归模型、分类模型、集成模型、聚类模型、关联规则挖掘、降维、特征选择、EM算法、概率图模型、文本分析、图与网络分析、深度学习、分布式计算。附录部分对相关的基础知识做了简要介绍。  《数据科学导引》还提供了大量的数据分析实践案例,有助于加深读者对理论知识的理解,及培养其实际应用能力。  《数据科学导引》可作为全国高等学校数据科学相关专业的本科生和研究生教材,也可供从事相关工作的技术人员参考使用。

数据科学导引 目录

**章 绪论
1.1 数据科学的基本内容
1.2 对学科发展的影响
1.3 对科学研究的影响
1.4 数据科学的课程体系
1.5 本书内容介绍

第二章 数据预处理
2.1 特征编码
2.2 缺失值处理
2.3 数据标准化
2.4 特征离散化
2.5 离群值检测
2.6 其他预处理方法
案例与实战

第三章 回归模型
3.1 线性回归
3.2 线性回归正则化
3.3 非线性回归
案例与实战

第四章 分类模型
4.1 逻辑回归
4.2 K近邻
4.3 决策树
4.4 朴素贝叶斯
4.5 支持向量机
案例与实战

第五章 集成模型
5.1 集成方法综述
5.2 随机森林
5.3 AdaBoost
5.4 应用实例:个人信用风险评估
案例与实战

第六章 聚类模型
6.1 K-means聚类
6.2 层次聚类
6.3 谱聚类
6.4 基于密度的聚类
6.5 小结
案例与实战

第七章 关联规则挖掘
7.1 关联规则概述
7.2 Apriori算法
7.3 FP-Growth算法
案例与实战

第八章 降维
8.1 主成分分析
8.2 线性判别分析
8.3 多维尺度变换
8.4 局部线性嵌入
8.5 其他降维方法
案例与实战

第九章 特征选择
9.1 特征选择的一般过程
9.2 特征选择常用的方法
9.3 无监督特征选择
9.4 小结
案例与实战

第十章 EM算法
10.1 EM算法
10.2 EM的应用:高斯混合模型
10.3 小结
案例与实战

第十一章 概率图模型
11.1 概率图模型概述
11.2 隐马尔可夫模型
11.3 条件随机场
11.4 小结
案例与实战

第十二章 文本分析
12.1 文本表示模型
12.2 主题模型
12.3 情感分析
案例与实战

第十三章 图与网络分析
13.1 基本概念
13.2 几何特征
13.3 链接分析
13.4 社区发现
13.5 知识图谱
案例与实战

第十四章 深度学习
14.1 多层感知机
14.2 深度学习模型的优化
14.3 卷积神经网络
14.4 循环神经网络
14.5 小结
案例与实战

第十五章 分布式计算
15.1 Hadoop:分布式存储与处理
15.2 常见模型的Map Reduce实现
15.3 Spark:分布式数据分析
15.4 其他分布式系统

附录
A.矩阵运算
B.概率论基础
C.优化算法
D.距离
E.模型评估
参考文献
展开全部

数据科学导引 节选

  《数据科学导引》:  另一种方法是计算每个特征对模型准确率的影响。通过打乱样本中某一特征的特征值顺序,产生新样本。将新样本放入建立好的随机森林模型中计算准确率。对于不重要的特征来说,打乱特征值的顺序对模型的准确率不会产生较大影响。但是对于重要的特征来说,打乱顺序就会极大降低模型的准确率。  这两种特征重要性的计算方法各有利弊,**种方法对具有更多特征值的特征会更有利。在不同特征的特征值种类有较大区别时会失效,不能用于解释特征的重要性。同时,在特征集合存在的相关性较多的情况下(即其中任何一个特征都可以作为优秀的特征,并且当某个特征被选择之后,其他特征的重要性就会迅速下降),那么**个被选中的特征重要性会较高,其他的关联特征重要性就会较低。这使在解读特征重要性结果时,错误认为先被选中的特征是很重要的。随机的特征选择方法虽然缓解了但尚未完全解决这一问题,样本的数量对第二种方法的结果有很大影响。  ……

数据科学导引 作者简介

  鄂维南,中国科学院院士,北京大数据研究院院长,北京大学、普林斯顿大学教授,大数据教育联盟理事长。主要从事计算数学、应用数学及其在力学、物理、化学和工程等领域中的应用等方面的研究。1996年获首届美国青年科学家与工程师总统奖。2003年获国际工业与应用数学大会科拉兹奖。2009年获美国工业与应用数学学会克莱曼奖。2014年获美国工业与应用数学学会卡门奖。    欧高炎,北京大学北京国际数学研究中心博士后,博雅大数据学院院长,大数据教育联盟秘书长。中国计算机学会数据库专委会委员。大数据教育、服务和竞赛平台“数据嗨客”创始人。    朱占星,北京大学大数据科学研究中心、北京大数据研究院研究员。主要研究方向为机器学习。长期从事人工智能、机器学习、深度学习以及大数据分析方面的研究与应用。    董彬,北京大学北京国际数学研究中心研究员,北京大数据研究院生物医学影像分析实验室副主任,求是杰出青年学者,中组部青年千人。主要研究领域是应用数学、计算数学及其在图像和数据科学中的应用。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服