Python数据科学实战 版权信息
- ISBN:9787517091868
- 条形码:9787517091868 ; 978-7-5170-9186-8
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
Python数据科学实战 本书特色
本书首先介绍数据科学,然后指导读者安装和搭建数据分析编程环境所需的软件包。在机器学习中,主要学习3 项技术:监督学习、无监督学习和强化学习,以及基本的分类与回归技术,如支持向量机、决策树以及逻辑回归等。
在前面章节的中,将学习Python语言中用于处理大型数据集的基本函数、数据结构,用于矩阵计算的NumPy包和Pandas包,如何使用Matplotlib绘制自定义图表,以及应用Boosting算法XGBoost(极端梯度提升)进行预测分析等。
在后面的章节中,将学习用于图像识别的卷积神经网络(CNN)、深度学习算法。读者将掌握如何向神经网络馈入人类语言、让模型处理复杂的文本信息以及构建人类语言处理系统进行结
果预测等。
本书通过实践操作的方式让初学者和经验丰富的数据科学家掌握数据科学与机器学习技术所需的基本工具。书中包含了59个实操训练项目+22个作业项目,这些实操性练习都是现实生活中的各种业务场景,可以让读者在高度相关联的环境中练习和应用新的技能。
学习完本书,读者可以掌握和使用很多新的数据科学算法,并且有信心使用本课程以外的工具或库进行操作。
Python数据科学实战 内容简介
本书首先介绍数据科学,然后指导读者安装和搭建数据分析编程环境所需的软件包。在机器 学习中,主要学习3项技术:监督学习、无监督学习和强化学习。我们也会用到基本的分类与回 归技术,如支持向量机、决策树以及逻辑回归等。 在前面章节的学习中,读者将学习到Python语言中用于处理大型数据集的基本函数、数据 结构,用于矩阵计算的NumPy包和Pandas包,如何使用Matplotlib绘制自定义图表,以及应用 Boosting算法XGBoost(特别梯度提升)进行预测分析等。 在后面的章节中,将会学习用于图像识别的卷积神经网络(CNN)、深度学习算法。读者将掌 握如何向神经网络馈入人类语言、让模型处理复杂的文本信息以及构建人类语言处理系统进行结 果预测等。 学习完本书,读者可以掌握和使用很多新的数据科学算法,并且有信心使用本课程以外的工 具或库进行操作。
Python数据科学实战 目录
第1章 数据科学和数据预处理导论
1.1 引言
1.2 Python库
1.3 构建机器学习模型的路线图
1.4 数据表示方式
练习1:加载样本数据集,创建特征矩阵和目标矩阵
1.5 数据清洗
练习2:删除缺失数据
练习3:填补缺失数据
练习4:查找并删除数据中的异常值
1.6 数据整合
练习5:整合数据
1.7 数据转换
练习6:用数字替换分类数据
练习7:使用标签编码方法将分类数据转换为数值数据
练习8:使用One-Hot编码将分类数据转换为数值数据
1.8 不同量纲的数据
练习9:使用StandardScaler()方法实现缩放
练习10:使用MinMaxScaler()方法实现缩放
1.9 数据离散化
练习11:连续数据的离散化
1.10 训练和测试数据
练习12:拆分数据为训练集和测试集
作业1:使用银行营销订阅数据集进行预处理
1.11 监督学习
1.12 无监督学习
1.13 强化学习
1.14 性能指标
1.15 偏差和方差
1.16 本章小结
第2章 数据可视化
2.1 引言
2.2 函数法
练习13:函数法——折线图
练习14:函数法——在图中添加第二条线
作业2:折线图
练习15:创建柱状图
作业3:柱状图
练习16:函数法——直方图
练习17:函数法——箱线图
练习18:散点图
2.3 面向对象法创建子图
练习19:使用子图的单线图
练习20:使用子图的多线图
作业4:使用子图的多种绘图类型
2.4 本章小结
第3章 基于Scikit-Learn库的机器学习简介
3.1 引言
3.2 线性回归与逻辑回归简介
3.3 简单线性回归
练习21:为线性回归模型准备数据
练习22:拟合简单线性回归模型并确定截距和系数
练习23:简单线性回归模型的预测生成及性能评估
3.4 多元线性回归
练习24:拟合多元线性回归模型并确定截距和系数
作业5:生成预测并评估多元线性回归模型的性能
3.5 逻辑回归
练习25:拟合逻辑回归模型并确定截距和系数
练习26:生成预测并评估逻辑回归模型的性能
练习27:调整多重逻辑回归模型的超参数
作业6:生成预测以及评估调参后的逻辑回归模型性能
3.6 基于支持向量机的*大保证金分类
练习28:为支持向量分类器模型准备数据
练习29:使用网格搜索优化SVC模型
作业7:生成预测并评估SVC网格搜索模型的性能
3.7 决策树
作业8:使用决策树分类器之前的数据准备
练习30:使用网格搜索调整决策树分类器的超参数
练习31:以编程方式从决策树分类器网格搜索模型中提取调整的超参数
作业9:决策树分类器模型的预测和性能评估
3.8 随机森林
练习32:为随机森林回归器准备数据
作业10:调整随机森林回归器
练习33:以编程方式提取调整后的超参数并从随机森林回归网格搜索模型确定特征重要性
作业11:生成预测并调参的随机森林回归模型性能评估
3.9 本章小结
第4章 降维和无监督学习
4.1 引言
4.2 层次聚类分析
练习34:建立HCA模型
练习35:绘制HCA模型并分配预测
4.3 k-均值聚类
练习36:拟合k-均值聚类模型并分配预测
作业12:k-均值聚类和计算预测的共同练习
练习37:通过n_clusters计算平均惯性
练习38:用n_clusters绘制平均惯性
4.4 主成分分析
练习39:拟合PCA模型
练习40:使用解释方差阈值选择n_components
作业13:PCA转换后通过聚类评估平均惯性
练习41:n_clusters对惯性的视觉比较
4.5 使用线性判别函数分析的监督数据压缩
练习42:拟合LDA模型
练习43:在分类器模型中使用LDA变换后的组件
4.6 本章小结
第5章 掌握结构化数据
5.1 引言
5.2 提升算法
练习44:使用XGBoost库进行分类
5.3 XGBoost库
作业14:训练和预测一个人的收人
5.4 外部内存使用
5.5 交叉验证
练习45:使用交叉验证找到*佳超参数
5.6 保存和加载模型
练习46:创建一个基于实时输入进行预测的Python脚本
作业15:预测流失的客户
5.7 神经网络
5.8 Keras库
练习47:为Python安装Keras库并使用它执行分类
练习48:使用神经网络预测鳄梨价格
5.9 分类变量
练习49:基于实体嵌入预测鳄梨价格
作业16:预测客户的购买力
5.10 本章小结
第6章 解码图像
6.1 引言
6.2 图像
练习50:使用完全连接神经网络对MNIST进行分类
6.3 卷积神经网络
6.4 Adam优化算法
6.5 交叉熵损失
练习51:使用CNN对MNIST进行分类
6.6 正则化
练习52:基于CIFAR-10图像使用正则化改善图像分类
6.7 图像数据预处理
作业17:预测图像中是一只猫还是一只狗
6.8 数据增强
6.9 生成器
练习53:使用图像增强对CIFAR-10图像进行分类
作业18:识别和增强图像
6.10 本章小结
第7章 人类语言处理
7.1 引言
7.2 文本数据处理
练习54:使用RegEx清洗字符串
练习55:预处理IMDB电影评论数据集
练习56:使用Gensim创建单词嵌入
作业19:预测电影评论的情感
7.3 循环神经网络
7.4 长短期记忆网络
练习57:使用LSTM进行情感分析
作业20:根据推文预测情感
7.5 本章小结
第8章 一些提示和诀窍
8.1 引言
8.2 迁移学习
练习58:使用InceptionV3对图像进行比较和分类
作业21:使用InceptionV3对图像进行分类
8.3 一些有用的工具和技巧
8.4 自动机器学习
练习59:使用Auto-Keras库建立性能优良的网络
8.5 使用Keras库进行模型可视化
作业22:使用迁移学习预测图像
8.6 本章小结
展开全部
Python数据科学实战 作者简介
Rohan Chopra,毕业于印度韦洛尔科技大学,是Absolutdata公司的数据科学家,主要研究方 向集中在深度学习计算机视觉相关问题的应用,同时在自动驾驶研究方面经验丰富,在端到端神 经网络系统的设计、运行和优化方面有着丰富的经验。