-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
从零开始学Python数据分析与挖掘 版权信息
- ISBN:9787302509875
- 条形码:9787302509875 ; 978-7-302-50987-5
- 装帧:一般纯质纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
从零开始学Python数据分析与挖掘 本书特色
快速上手,轻松圆梦Python数据分析师 为满足用人单位对数据分析和挖掘人员在编程方面的技能要求,本书遵循由浅入深的原则,详细地介绍了利用Python及其相关工具实现数据分析和挖掘的实用技能。 结合Python中成熟的Numpy、Pandas、MatPlotLib、Sklearn、Seaborn、Statsmodels和SciPy模块,实现数据分析与挖掘中关于数据的清洗、整理、探索、可视化、建模和评估等流程的操作,让每一位对数据分析或挖掘的从业者或感兴趣的读者都能从中学到所需的内容。 十大常用数据挖掘算法及实战案例,如多元线性回归的预测模型、决策树分类模型、SVM分类模型、GBDT分类模型、K均值聚类模型等,基本覆盖用人单位对常用挖掘算法的需求。
从零开始学Python数据分析与挖掘 内容简介
本书以Python 3版本作为数据分析与挖掘实战的应用工具,从Pyhton的基础语法开始,陆续介绍有关数值计算的Numpy、数据处理的Pandas、数据可视化的Matplotlib和数据挖掘的Sklearn等内容。全书共涵盖15种可视化图形以及10个常用的数据挖掘算法和实战项目,通过本书的学习,读者可以掌握数据分析与挖掘的理论知识和实战技能。 本书适于统计学、数学、经济学、金融学、管理学以及相关理工科专业的本科生、研究生使用,也能够提高从事数据咨询、研究或分析等人士的专业水平和技能。
从零开始学Python数据分析与挖掘 目录
第1章 数据分析与挖掘概述 1
1.1 什么是数据分析和挖掘 1
1.2 数据分析与挖掘的应用领域 2
1.2.1 电商领域——发现破坏规则的“害群之马” 2
1.2.2 交通出行领域——为打车平台进行私人订制 3
1.2.3 医疗健康领域——找到*佳医疗方案 3
1.3 数据分析与挖掘的区别 4
1.4 数据挖掘的流程 5
1.4.1 明确目标 5
1.4.2 数据搜集 6
1.4.3 数据清洗 6
1.4.4 构建模型 7
1.4.5 模型评估 7
1.4.6 应用部署 8
1.5 常用的数据分析与挖掘工具 8
1.6 本章小结 9
第2章 从收入的预测分析开始 10
2.1 下载与安装Anoconda 10
2.1.1 基于Windows系统安装 11
2.1.2 基于Mac系统安装 12
2.1.3 基于Linux系统安装 14
2.2 基于Python的案例实战 14
2.2.1 数据的预处理 14
2.2.2 数据的探索性分析 16
2.2.3 数据建模 19
2.3 本章小结 28
第3章 Python快速入门 29
3.1 数据结构及方法 29
3.1.1 列表 29
3.1.2 元组 34
3.1.3 字典 35
3.2 控制流 38
3.2.1 if分支 38
3.2.2 for循环 39
3.2.3 while循环 41
3.3 字符串处理方法 43
3.3.1 字符串的常用方法 43
3.3.2 正则表达式 45
3.4 自定义函数 47
3.4.1 自定义函数语法 47
3.4.2 自定义函数的几种参数 49
3.5 一个爬虫案例 52
3.6 本章小结 54
第4章 Python数值计算工具——Numpy 56
4.1 数组的创建与操作 56
4.1.1 数组的创建 56
4.1.2 数组元素的获取 57
4.1.3 数组的常用属性 58
4.1.4 数组的形状处理 59
4.2 数组的基本运算符 62
4.2.1 四则运算 62
4.2.2 比较运算 63
4.2.3 广播运算 65
4.3 常用的数学和统计函数 66
4.4 线性代数的相关计算 67
4.4.1 矩阵乘法 68
4.4.2 diag函数的使用 69
4.4.3 特征根与特征向量 69
4.4.4 多元线性回归模型的解 70
4.4.5 多元一次方程组的求解 70
4.4.6 范数的计算 71
4.5 伪随机数的生成 71
4.6 本章小结 74
第5章 Python数据处理工具——Pandas 76
5.1 序列与数据框的构造 76
5.1.1 构造序列 77
5.1.2 构造数据框 78
5.2 外部数据的读取 79
5.2.1 文本文件的读取 79
5.2.2 电子表格的读取 81
5.2.3 数据库数据的读取 83
5.3 数据类型转换及描述统计 85
5.4 字符与日期数据的处理 89
5.5 常用的数据清洗方法 93
5.5.1 重复观测处理 93
5.5.2 缺失值处理 94
5.5.3 异常值处理 97
5.6 数据子集的获取 99
5.7 透视表功能 101
5.8 表之间的合并与连接 104
5.9 分组聚合操作 107
5.10 本章小结 108
第6章 Python数据可视化 110
6.1 离散型变量的可视化 110
6.1.1 饼图 110
6.1.2 条形图 115
6.2 数值型变量的可视化 125
6.2.1 直方图与核密度曲线 125
6.2.2 箱线图 129
6.2.3 小提琴图 133
6.2.4 折线图 135
6.3 关系型数据的可视化 139
6.3.1 散点图 139
6.3.2 气泡图 142
6.3.3 热力图 144
6.4 多个图形的合并 146
6.5 本章小结 148
第7章 线性回归预测模型 150
7.1 一元线性回归模型 150
7.2 多元线性回归模型 153
7.2.1 回归模型的参数求解 154
7.2.2 回归模型的预测 155
7.3 回归模型的假设检验 157
7.3.1 模型的显著性检验——F检验 158
7.3.2 回归系数的显著性检验——t检验 160
7.4 回归模型的诊断 162
7.4.1 正态性检验 162
7.4.2 多重共线性检验 164
7.4.3 线性相关性检验 165
7.4.4 异常值检验 167
7.4.5 独立性检验 170
7.4.6 方差齐性检验 170
7.5 本章小结 173
第8章 岭回归与LASSO回归模型 174
8.1 岭回归模型 174
8.1.1 参数求解 175
8.1.2 系数求解的几何意义 176
8.2 岭回归模型的应用 177
8.2.1 可视化方法确定?值 177
8.2.2 交叉验证法确定?值 179
8.2.3 模型的预测 180
8.3 LASSO回归模型 182
8.3.1 参数求解 182
8.3.2 系数求解的几何意义 183
8.4 LASSO回归模型的应用 184
8.4.1 可视化方法确定?值 184
8.4.2 交叉验证法确定?值 186
8.4.3 模型的预测 187
8.5 本章小结 189
第9章 Logistic回归分类模型 190
9.1 Logistic模型的构建 191
9.1.1 Logistic模型的参数求解 193
9.1.2 Logistic模型的参数解释 195
9.2 分类模型的评估方法 195
9.2.1 混淆矩阵 196
9.2.2 ROC曲线 197
9.2.3 K-S曲线 198
9.3 Logistic回归模型的应用 200
9.3.1 模型的构建 200
9.3.2 模型的预测 202
9.3.3 模型的评估 203
9.4 本章小结 207
第10章 决策树与随机森林 208
10.1 节点字段的选择 209
10.1.1 信息增益 210
10.1.2 信息增益率 212
10.1.3 基尼指数 213
10.2 决策树的剪枝 216
10.2.1 误差降低剪枝法 217
10.2.2 悲观剪枝法 217
10.2.3 代价复杂度剪枝法 219
10.3 随机森林 220
10.4 决策树与随机森林的应用 222
10.4.1 分类问题的解决 222
10.4.2 预测问题的解决 229
10.5 本章小结 231
第11章 KNN模型的应用 233
11.1 KNN算法的思想 233
11.2 *佳k值的选择 234
11.3 相似度的度量方法 235
11.3.1 欧式距离 235
11.3.2 曼哈顿距离 236
11.3.3 余弦相似度 236
11.3.4 杰卡德相似系数 237
11.4 近邻样本的搜寻方法 238
11.4.1 KD树搜寻法 238
11.4.2 球树搜寻法 242
11.5 KNN模型的应用 244
11.5.1 分类问题的解决 245
11.5.2 预测问题的解决 248
11.6 本章小结 251
第12章 朴素贝叶斯模型 253
12.1 朴素贝叶斯理论基础 253
12.2 几种贝叶斯模型 255
12.2.1 高斯贝叶斯分类器 255
12.2.2 高斯贝叶斯分类器的应用 257
12.2.3 多项式贝叶斯分类器 259
12.2.4 多项式贝叶斯分类器的应用 261
12.2.5 伯努利贝叶斯分类器 264
12.2.6 伯努利贝叶斯分类器的应用 266
12.3 本章小结 271
第13章 SVM模型的应用 272
13.1 SVM简介 273
13.1.1 距离公式的介绍 273
13.1.2 SVM的实现思想 274
13.2 几种常见的SVM模型 276
13.2.1 线性可分的SVM 276
13.2.2 一个手动计算的案例 279
13.2.3 近似线性可分SVM 281
13.2.4 非线性可分SVM 284
13.2.5 几种常用的SVM核函数 285
13.2.6 SVM的回归预测 287
13.3 分类问题的解决 289
13.4 预测问题的解决 291
13.5 本章小结 294
第14章 GBDT模型的应用 296
14.1 提升树算法 297
14.1.1 AdaBoost算法的损失函数 297
14.1.2 AdaBoost算法的操作步骤 299
14.1.3 AdaBoost算法的简单例子 300
14.1.4 AdaBoost算法的应用 302
14.2 梯度提升树算法 308
14.2.1 GBDT算法的操作步骤 308
14.2.2 GBDT分类算法 309
14.2.3 GBDT回归算法 309
14.2.4 GBDT算法的应用 310
14.3 非平衡数据的处理 313
14.4 XGBoost算法 315
14.4.1 XGBoost算法的损失函数 315
14.4.2 损失函数的演变 317
14.4.3 XGBoost算法的应用 319
14.5 本章小结 324
第15章 Kmeans聚类分析 326
15.1 Kmeans聚类 327
15.1.1 Kmeans的思想 327
15.1.2 Kmeans的原理 328
15.2 *佳k值的确定 329
15.2.1 拐点法 329
15.2.2 轮廓系数法 332
15.2.3 间隔统计量法 333
15.3 Kmeans聚类的应用 336
15.3.1 iris数据集的聚类 336
15.3.2 NBA球员数据集的聚类 339
15.4 Kmeans聚类的注意事项 343
15.5 本章小结 343
第16章 DBSCAN与层次聚类分析 345
16.1 密度聚类简介 345
16.1.1 密度聚类相关的概念 346
16.1.2 密度聚类的步骤 347
16.2 密度聚类与Kmeans的比较 349
16.3 层次聚类 353
16.3.1 簇间的距离度量 354
16.3.2 层次聚类的步骤 356
16.3.3 三种层次聚类的比较 357
16.4 密度聚类与层次聚类的应用 359
16.5 本章小结 365
从零开始学Python数据分析与挖掘 作者简介
刘顺祥, 统计学硕士,“数据分析1480”微信公众号运营者。曾就职于大数据咨询公司,为联想、亨氏、美丽田园、网鱼网咖等企业项目提供服务;曾在唯品会大数据部担任数据分析师一职,负责电商支付环节的数据分析业务。
- >
唐代进士录
唐代进士录
¥15.1¥39.8 - >
诗经-先民的歌唱
诗经-先民的歌唱
¥20.3¥39.8 - >
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
¥17.6¥55.0 - >
有舍有得是人生
有舍有得是人生
¥17.1¥45.0 - >
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
¥9.3¥19.0 - >
罗庸西南联大授课录
罗庸西南联大授课录
¥13.8¥32.0 - >
月亮与六便士
月亮与六便士
¥15.1¥42.0 - >
中国历史的瞬间
中国历史的瞬间
¥16.7¥38.0
-
详解Spring Boot(从入门到企业级开发实战)/孙鑫精品图书系列
¥64.2¥129 -
PYTHON应用与实战
¥52.9¥79.8 -
Python编程与数值方法
¥79.6¥109 -
Go语言从入门到项目实战(视频版)
¥60.4¥108 -
软件设计师
¥14.2¥38 -
GO语言编程从入门到实践
¥75.6¥108