图书盲袋,以书为“药”
欢迎光临中图网 请 | 注册
> >>
梯度提升算法实战——基于XGBOOST和SCIKIT-LEARN

梯度提升算法实战——基于XGBOOST和SCIKIT-LEARN

出版社:清华大学出版社出版时间:2024-04-01
开本: 其他 页数: 218
中 图 价:¥69.3(7.0折) 定价  ¥99.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

梯度提升算法实战——基于XGBOOST和SCIKIT-LEARN 版权信息

梯度提升算法实战——基于XGBOOST和SCIKIT-LEARN 本书特色

本书从机器学习基础出发,详解XGBoost模型构建和优化过程,并借助实例分析,引入XGBoost工业化应用的高级方法和技巧,实用性强,便于自学。

梯度提升算法实战——基于XGBOOST和SCIKIT-LEARN 内容简介

XGBoost是一种经过行业验证的开源软件库,为快速高效地处理数十亿数据点提供了梯度提升框架。首先,本书在介绍机器学习和XGBoost在scikit-learn中的应用后,逐步深入梯度提升背后的理论知识。读者将学习决策树,并分析在机器学习环境中的装袋技术,同时学习拓展到XGBoost的超参数;并将从零开始构建梯度提升模型,将梯度提升扩展到大数据领域,同时通过计时器的使用了解速度。接着,本书重点探讨XGBoost的细节,着重于速度提升和通过数学推导导出参数。通过详细案例研究,读者将练习使用scikit-learn及原始的Python API构建和微调XGBoost分类器与回归器;并学习如何利用XGBoost的超参数来提高评分、纠正缺失值、缩放不平衡数据集,并微调备选基学习器。*后,读者将学习应用高级XGBoost技术,如构建非相关的集成模型、堆叠模型,并使用稀疏矩阵、定制转换器和管道为行业部署准备模型。 本书适合作为高等学校计算机专业、软件工程专业的高年级本科生及研究生教材,同时适合有一定机器学习基础的数据科学家、机器学习工程师和研究人员阅读,可为解决复杂的机器学习问题提供实用指导。

梯度提升算法实战——基于XGBOOST和SCIKIT-LEARN 目录

**部分 装袋和提升
第1章 机器学习概览 2
1.1 XGBoost概览 2
1.2 数据整理 3
1.2.1 数据集1:自行车租赁数据集 3
1.2.2 理解数据 5
1.2.3 纠正空值 7
1.3 回归预测 12
1.3.1 预测自行车租赁数量 12
1.3.2 保存数据以备将来使用 12
1.3.3 声明预测列和目标列 13
1.3.4 理解回归 13
1.3.5 访问 scikit-learn 14
1.3.6 关闭警告信息 14
1.3.7 线性回归建模 14
1.3.8 XGBoost 16
1.3.9 XGBRegressor 16
1.3.10 交叉验证 17
1.4 分类预测 20
1.4.1 什么是分类? 20
1.4.2 数据集2:人口普查数据集 21
1.4.3 XGBoost分类器 26
1.5 总结 27
第2章 深入浅出决策树 28
2.1 介绍XGBoost决策树 28
2.2 探索决策树 29
2.2.1 **个决策树模型 29
2.2.2 决策树内部结构 30
2.3 对比方差和偏差 32
2.4 调整决策树超参数 35
2.4.1 决策树回归器 35
2.4.2 一般超参数 37
2.4.3 综合微调超参数 43
2.5 实例:预测心脏病 43
2.5.1 心脏病数据集 43
2.5.2 决策树分类器 45
2.5.3 选择超参数 46
2.5.4 缩小范围 46
2.5.5 feature_importances_ 47
2.6 总结 49
第3章 随机森林与装袋法 50
3.1 装袋集成 50
3.1.1 集成方法 50
3.1.2 自助聚合 51
3.2 探索随机森林 52
3.2.1 随机森林分类器 52
3.2.2 随机森林回归器 54
3.3 随机森林超参数 55
3.3.1 oob_score 55
3.3.2 n_estimators 56
3.3.3 warm_start 57
3.3.4 自助法 58
3.3.5 冗长度 59
3.3.6 决策树超参数 59
3.4 实例:突破随机森林边界 59
3.4.1 准备数据集 60
3.4.2 n_estimators 60
3.4.3 cross_val_score 61
3.4.4 微调超参数 61
3.4.5 随机森林的缺点 65
3.5 总结 66
第4章 从梯度提升到XGBoost 67
4.1 从装袋到提升 67
4.1.1 AdaBoost简介 68
4.1.2 有所区别的梯度提升算法 68
4.2 梯度提升的工作原理 69
4.2.1 残差 69
4.2.2 学习如何从零开始构建梯度提升模型 70
4.2.3 在 scikit-learn 中构建梯度提升模型 73
4.3 修改梯度提升超参数 74
4.3.1 learning_rate 74
4.3.2 基学习器 76
4.3.3 subsample 77
4.3.4 RandomizedSearchCV 78
4.3.5 XGBoost 80
4.4 接近大数据——梯度提升与XGBoost的比较 80
4.4.1 介绍系外行星数据集 81
4.4.2 预处理系外行星数据集 82
4.4.3 构建梯度提升分类器 83
4.4.4 时间模块 83
4.4.5 比较速度 84
4.5 总结 86
第二部分 XGBoost
第5章 XGBoost揭秘 88
5.1 设计XGBoost 88
5.1.1 背景描述 88
5.1.2 设计特点 89
5.2 分析 XGBoost 参数 91
5.3 构建XGBoost模型 94
5.3.1 鸢尾花数据集 95
5.3.2 糖尿病数据集 97
5.4 案例:寻找希格斯玻色子 99
5.4.1 物理学背景 99
5.4.2 Kaggle竞赛 100
5.4.3 XGBoost和希格斯玻色子挑战赛 100
5.4.4 数据 100
5.4.5 评分 103
5.4.6 权重 104
5.4.7 模型 105
5.5 总结 107
第6章 XGBoost 超参数 108
6.1 准备数据和基础模型 108
6.1.1 心脏病数据集 108
6.1.2 XGBClassifier 110
6.1.3 StratifiedKFold 111
6.1.4 基线模型 112
6.1.5 结合 GridSearchCV 和 RandomizedSearchCV 112
6.2 优化 XGBoost 超参数 113
6.3 应用提前停止 117
6.3.1 什么是提前停止? 118
6.3.2 eval_set 和 eval_metric 118
6.3.3 early_stopping_rounds 120
6.4 组合超参数 121
6.4.1 一次一个超参数 121
6.4.2 超参数调整 124
6.5 总结 126
第7章 用XGBoost发现系外行星 127
7.1 寻找系外行星 127
7.1.1 背景描述 128
7.1.2 系外行星数据集 128
7.1.3 绘制数据图表 129
7.1.4 准备数据 132
7.1.5 初始化 XGBClassifier 133
7.2 分析混淆矩阵 134
7.2.1 confusion_matrix 134
7.2.2 classification_report 135
7.2.3 备选评分方法 137
7.3 重采样不平衡数据 139
7.3.1 重采样 139
7.3.2 欠采样 139
7.3.3 过采样 141
7.4 调整和缩放 XGBClassifier 143
7.4.1 调整权重 144
7.4.2 调整 XGBClassifier 145
7.4.3 巩固成果 151
7.4.4 分析结果 153
7.5 总结 154
第三部分 XGBoost进阶
第8章 XGBoost的备选基学习器 156
8.1 备选基学习器概览 156
8.1.1 gblinear 157
8.1.2 DART 157
8.1.3 XGBoost随机森林 158
8.2 应用 gblinear 158
8.2.1 将 gblinear 应用于糖尿病数据集 158
8.2.2 线性数据集 164
8.2.3 gblinear 分析 166
8.3 比较DART 166
8.3.1 DART与XGBRegressor 166
8.3.2 使用XGBClassifier的DART 167
8.3.3 DART超参数 168
8.3.4 修改DART超参数 170
8.3.5 DART分析 171
8.4 寻找 XGBoost 随机森林 172
8.4.1 将随机森林作为基学习器使用 172
8.4.2 作为XGBoost模型的随机森林 173
8.4.3 分析XGBoost随机森林 175
8.5 总结 175
第9章 XGBoost Kaggle 大师 176
9.1 探索Kaggle竞赛 176
9.1.1 Kaggle竞赛中的XGBoost 176
9.1.2 Kaggle竞赛的结构 177
9.1.3 保留集(hold-out set) 178
9.2 工程新列 180
9.2.1 什么是特征工程? 180
9.2.2 Uber和Lyft的数据集 180
9.3 构建非相关集成 187
9.3.1 模型范围 188
9.3.2 相关性 190
9.3.3 机器学习集成中的相关性 191
9.3.4 VotingClassifier 集成 194
9.4 堆叠模型 195
9.4.1 什么是堆叠? 195
9.4.2 scikit-learn 中的堆叠 195
9.5 总结 196
第10章 XGBoost模型部署 197
10.1 混合数据编码 197
10.1.1 加载数据 197
10.1.2 清除空值 199
10.1.3 独热编码 201
10.1.4 将一个独热编码矩阵和数值列合并 202
10.2 自定义 scikit-learn 转换器 204
10.2.1 定制转换器 204
10.2.2 预处理管道 209
10.3 完成一个 XGBoost 模型 210
10.3.1 **个 XGBoost 模型 210
10.3.2 微调 XGBoost 超参数 211
10.3.3 测试模型 215
10.4 构建机器学习管道 216
10.5 总结 218
附 录 本书相关网址 219
展开全部
商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服