-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
数据分析与数据挖掘 版权信息
- ISBN:9787121447433
- 条形码:9787121447433 ; 978-7-121-44743-3
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
数据分析与数据挖掘 内容简介
本书重点讲述统计数据分析方法和数据挖掘技术,在大数据时代和人工智能时代,数据驱动的知识抽取技术成为一项重要学习和研究内容。本书采用理论和举例相结合的方式进行数据分析和数据挖掘知识讲解,并配套《数据分析与数据挖掘建模工具》一书,便于理论和实践相结合。书中内容包括统计检验、方差分析、回归分析、关联分析、分类模型、聚类模型、离群点分析等典型的数据分析和数据挖掘方法。
数据分析与数据挖掘 目录
第1章 数据分析与数据挖掘基础 1
1.1 数据分析与数据挖掘需求 1
1.1.1 数据分析与数据挖掘 1
1.1.2 大数据处理需求 2
1.1.3 数据分析误区与隐私问题 3
1.2 数据分析与数据挖掘的工作过程 3
1.2.1 数据分析的主要工作过程 3
1.2.2 数据收集 5
1.2.3 数据展示 6
1.3 数据的组织和数据的类型 7
1.3.1 数据的一般组织形式 7
1.3.2 数据类型 8
1.3.3 分类数据的编码 9
1.4 数据的常用描述性统计量 11
1.4.1 数据的中心趋势 11
1.4.2 数据的离散程度 12
1.4.3 数据的形态统计量 15
1.5 数据的基本描述性统计分析 18
1.5.1 数据的描述性统计 18
1.5.2 五数概括与盒图 19
1.5.3 数据的描述性统计图 20
1.6 本章小结 22
本章概念与关键词 22
练习与思考 23
第2章 数据抽样与推断检验 24
2.1 随机变量概率分布 24
2.1.1 概率分布 24
2.1.2 正态分布 26
2.1.3 二项分布与泊松分布 28
2.1.4 几何分布与超几何分布 29
2.2 抽样统计分析 31
2.2.1 抽样的相关概念 31
2.2.2 概率抽样的典型方法 33
2.2.3 非随机抽样的典型方法 34
2.3 基本抽样分布 34
2.3.1 经验分布、理论分布与抽样分布 34
2.3.2 三大抽样分布 36
2.3.3 小概率事件 38
2.4 常用的抽样分布与区间估计 40
2.4.1 常用的统计量抽样分布 40
2.4.2 置信区间与区间估计 42
2.5 常用的参数检验 45
2.5.1 假设检验一般过程 45
2.5.2 常用的参数检验统计量 47
2.6 常用的单样本非参数检验 48
2.6.1 卡方检验 48
2.6.2 二项分布检验 49
2.6.3 固定参数的超几何分布检验 49
2.6.4 游程检验 50
2.6.5 单样本K-S检验 54
2.7 本章小结 56
本章概念与关键词 57
练习与思考 57
第3章 可视化图与分组检验 59
3.1 数据的常用可视化图分析 59
3.1.1 数据的常用可视化图 59
3.1.2 基于图的可视化观测一般过程 62
3.2 均值比较和t检验 62
3.2.1 分组统计 62
3.2.2 数据标准化与Z-Score 63
3.2.3 单样本t检验 64
3.2.4 两独立样本t检验 65
3.2.5 两配对样本t检验 67
3.3 方差齐性检验 68
3.3.1 Levene方差齐性检验 68
3.3.2 基于F检验的方差齐性检验 69
3.3.3 Brown-Forsythe方差齐性检验 70
3.3.4 Bartlett’s方差齐性检验 70
3.4 两独立样本的非参数检验 71
3.4.1 Mann-Whitney U检验 71
3.4.2 两独立样本K-S检验 74
3.4.3 两独立样本游程检验 76
3.4.4 两独立样本Moses特别反应检验 77
3.4.5 两独立样本Brown-Mood中位数
检验 78
3.5 两配对样本的非参数检验 81
3.5.1 两配对样本符号检验 81
3.5.2 中位数、分位数及比例的符号
检验 82
3.5.3 两配对样本Wilcoxon符号秩
检验 83
3.5.4 Wilcoxon符号秩单样本检验 85
3.5.5 两配对样本McNemar检验 86
3.5.6 边缘齐性检验 88
3.6 多样本的非参数检验 88
3.6.1 多独立样本中位数检验 88
3.6.2 多独立样本Kruskal-Wallis检验 90
3.6.3 多独立样本Jonckheere-Terpstra
检验 91
3.6.4 多配对样本Friedman检验 94
3.6.5 多配对样本Kendall协同系数
检验 96
3.6.6 多配对样本Cochran’s Q检验 97
3.7 本章小结 98
本章概念与关键词 99
练习与思考 99
第4章 方差分析与相关性分析 102
4.1 方差分析 102
4.1.1 方差分析中的变量 102
4.1.2 单因素方差分析 103
4.1.3 单因素方差Brown-Forsythe
检验 105
4.1.4 单因素方差Welch’s t检验 106
4.1.5 无交互作用的双因素方差分析 107
4.1.6 有交互作用的双因素方差分析 109
4.2 Post Hoc检验 111
4.2.1 LSD检验 111
4.2.2 Studentized极差分布 112
4.2.3 Tukey’s Range检验 113
4.2.4 Tukey-Kramer检验 115
4.2.5 SNK检验 117
4.2.6 其他几种常用检验方法 118
4.3 连续属性数据的相关性分析 119
4.3.1 协方差的线性相关性度量 119
4.3.2 相关系数的线性相关性度量 122
4.3.3 Spearman秩相关系数 124
4.4 离散属性相关性分析 126
4.4.1 交叉列联表分析 126
4.4.2 用卡方检验进行离散相关性分析 127
4.4.3 列联表上常用的指标 128
4.4.4 Fisher’s exact检验 129
4.5 本章小结 131
本章概念与关键词 132
练习与思考 132
第5章 数据的预处理与距离分析 134
5.1 数据的预处理 134
5.1.1 数据清理 134
5.1.2 数据集成 136
5.1.3 数据变换 137
5.1.4 数据归约 137
5.2 数据的常用组织方式 138
5.2.1 数据的常用逻辑组织 138
5.2.2 数据的常用物理组织 139
5.2.3 高精度计算与矩阵计算 139
5.2.4 编程语言、软件工具 140
5.3 相似度计算与距离分析 140
5.3.1 相似度与距离的转换 140
5.3.2 闵可夫斯基距离 143
5.3.3 马氏距离 145
5.3.4 混合属性的相似度与距离 147
5.4 kNN分类模型 148
5.4.1 kNN分类模型概述 148
5.4.2 距离加权kNN分类模型 150
5.5 参数的点估计 151
5.5.1 原点矩与中心矩 151
5.5.2 矩估计法 152
5.5.3 极大似然估计法 153
5.6 本章小结 156
本章概念与关键词 156
练习与思考 156
第6章 回归分析 158
6.1 一元线性回归 158
6.1.1 一元线性回归问题描述 158
6.1.2 一元线性回归模型与求解 159
6.1.3 确认回归方程的精度 161
6.1.4 总体回归的方差分析 162
6.1.5 残差分析 164
6.1.6 回归方程参数检验 167
6.1.7 回归方程预测与控制 168
6.2 多元线性回归 170
6.2.1 多元线性回归问题描述 170
6.2.2 多元线性回归模型与求解 172
6.2.3 确认回归方程的精度 173
6.2.4 残差分析 174
6.2.5 回归方程参数检验 175
6.2.6 回归方程预测 176
6.3 常用的曲线回归 177
6.3.1 曲线回归问题 177
6.3.2 多项式回归 177
6.3.3 指数回归与对数回归 179
6.3.4 其他常见曲线回归 179
6.4 *小二乘法及其应用 179
6.4.1 *小二乘法线性拟合 179
6.4.2 伪逆矩阵求解 180
6.4.3 Moore-Pseudo逆矩阵 181
6.4.4 *小均方误差算法 182
6.4.5 非线性回归 183
6.4.6 智能优化求解技术 183
6.5 Logistic回归 184
6.5.1 Logistic回归分类与基本函数 184
6.5.2 Logistic回归系数计算 185
6.6 本章小结 186
本章概念与关键词 187
练习与思考 187
第7章 空间降维技术 189
7.1 主成分分析 189
7.1.1 主成分分析描述 189
7.1.2 基于协方差矩阵的主成分分析 190
7.1.3 基于相关系数矩阵的主成分
分析 192
7.1.4 主成分分析与因子分析的联系 193
7.1.5 主成分分析的作用 194
7.2 因子分析案例研究 196
7.2.1 研究的目的与内容 196
7.2.2 变量选取与数据来源 196
7.2.3 因子分析过程 197
7.2.4 因子回归分析 198
7.2.5 案例研究结论 199
7.3 奇异值分解 200
7.3.1 SVD的协同过滤推荐 200
7.3.2 SVD在协同过滤中的应用 203
7.3.3 SVD增量式协同过滤方法 204
7.4 主成分回归与逐步回归 205
7.4.1 多重共线性 205
7.4.2 主成分回归 207
7.4.3 逐步回归 207
7.5 本章小结 208
本章概念与关键词 208
练习与思考 209
第8章 关联规则与点对相关性 210
8.1 频繁模式与关联规则的基本
概念 210
8.1.1 频繁模式的基本概念 210
8.1.2 关联规则的基本概念 211
8.1.3 极大频繁模式与闭频繁模式 212
8.2 频繁模式挖掘 213
8.2.1 Apriori算法 213
8.2.2 垂直数据格式 214
8.2.3 基于频繁模式计算关联规则 215
8.3 频繁模式树 216
8.3.1 频繁模式树的构建 216
8.3.2 频繁模式树的递归过程 219
8.4 点对相似度的典型度量 220
8.4.1 点对关系常见度量 220
8.4.2 点对相关性度量的几种特性 222
8.5 信息熵及其应用与点对相关性
度量 224
8.5.1 信息熵 224
8.5.2 联合熵与互信息 226
8.5.3 信息增益、相对熵和交叉熵 228
8.5.4 互信息、交叉熵用于相关性 229
8.6 本章小结 230
本章概念与关键词 230
练习与思考 231
第9章 决策树 232
9.1 分类问题与模型训练 232
9.1.1 分类问题描述 232
9.1.2 分类问题举例与泛化问题 233
9.1.3 分类模型的常见评价指标 235
9.2 决策树及ID3算法 236
9.2.1 决策树概述 236
9.2.2 ID3算法 238
9.3 C4.5算法与连续属性特征分
类树 241
9.3.1 C4.5算法 241
9.3.2 连续属性的决策树构建 241
9.4 CART决策树 243
9.4.1 CART分类树 243
9.4.2 CART回归树 244
9.5 决策树剪枝 250
9.5.1 剪枝问题的提出与先剪枝技术 250
9.5.2 错误率降低剪枝法 251
9.5.3 悲观剪枝法 251
9.5.4 代价复杂度剪枝法 254
9.6 ROC曲线与AUC指标 255
9.6.1 ROC曲线描述与绘制 255
9.6.2 ROC曲线绘制与作用 257
9.6.3 AUC指标与应用 258
9.7 本章小结 259
本章概念与关键词 259
练习与思考 260
第10章 贝叶斯分类 261
10.1 连续属性贝叶斯分类器 261
10.1.1 单个连续属性贝叶斯分类 261
10.1.2 多个连续属性的*小总风险
决策 262
10.1.3 多个连续属性的*小平均误差率
决策 263
10.2 正态概率分布下的贝叶斯分
类器 264
10.2.1 分类器的判别函数表示形式 264
10.2.2 正态分布下的贝叶斯判别函数 264
10.2.3 正态分布下的贝叶斯判别举例 265
10.3 离散属性贝叶斯分类器 267
10.3.1 离散属性贝叶斯模型 267
10.3.2 朴素贝叶斯分类器 267
10.4 朴素贝叶斯文本分类和TAN贝叶斯
模型 270
10.4.1 朴素贝叶斯文本分类器 270
10.4.2 TAN贝叶斯分类模型 272
10.5 贝叶斯分类器中的参数估计与非参数
估计 276
10.5.1 贝叶斯分类器中的参数估计 276
10.5.2 非参数估计 277
10.6 本章小结 278
本章概念与关键词 279
练习与思考 279
第11章 特征空间与判别分析 280
11.1 特征空间 280
11.1.1 特征空间构造 280
11.1.2 特征空间评价 282
11.1.3 特征空间变换 284
11.1.4 证据空间 285
11.2 特征提取与特征选择 285
11.2.1 特征提取 285
11.2.2 特征选择 285
11.2.3 jiang相关系数 286
11.2.4 过滤式特征选择 288
11.2.5 封装式特征选择 288
11.2.6 嵌入式特征选择 289
11.3 极大似然判别分析 289
11.3.1 极大似然判别分析的工作过程 289
11.3.2 极大似然判别分析的应用举例 290
11.4 距离判别分析 290
11.4.1 距离与相似度的常用度量 290
11.4.2 距离判别分析的工作原理 291
11.4.3 距离判别法的检验与多总体距离
判别 293
11.4.4 两总体方差是否有相同的检验 294
11.4.5 加权的距离或相似度应用于距离判别
分析与kNN分类模型 296
11.5 Fisher判别分析 296
11.5.1 两类别的线性判别中的很好投影
方向 296
11.5.2 两类别的线性判别过程 298
11.5.3 多重线性判别分析 299
11.5.4 Fisher判别分析应用举例 301
11.6 本章小结 303
本章概念与关键词 303
练习与思考 303
第12章 感知机与支持向量机 305
12.1 线性判别函数 305
12.1.1 线性判别函数表示 305
12.1.2 多重线性判别函数 306
12.1.3 广义线性判别函数 306
12.2 感知机分类器 307
12.2.1 M-P模型 307
12.2.2 感知机结构 308
12.2.3 感知机训练算法 309
12.2.4 感知机应用举例 312
12.3 感知机训练算法扩展 313
12.3.1 感知机的典型训练算法 313
12.3.2 感知机松弛算法 314
12.3.3 *小均方误差求解算法 314
12.3.4 Ho-kashyap求解算法 316
12.3.5 多分类扩展伪逆求解 317
12.3.6 感知机的对偶形式 318
12.4 优选间隔超平面与结构风险 319
12.4.1 优选间隔超平面 319
12.4.2 经验风险*小化与结构风险
*小化 320
12.5 支持向量机 323
12.5.1 线性可分时的支持向量机 323
12.5.2 数据不可分时的线性SVM 327
12.5.3 非线性支持向量机 332
12.5.4 支持向量机中的其他问题 336
12.6 本章小结 338
本章概念与关键词 339
练习与思考 339
第13章 人工神经网络 341
13.1 激活函数与多层感知机 341
13.1.1 常见激活函数 341
13.1.2 多层感知机结构 344
13.1.3 多层感知机设计 345
13.2 BP神经网络 347
13.2.1 BP神经网络及BP算法 347
13.2.2 BP算法训练中的注意事项 351
13.3 BP神经网络应用 355
13.3.1 二分类问题应用 355
13.3.2 多分类问题与拟合问题 359
13.4 深度学习 361
13.4.1 深度学习技术环境 361
13.4.2 卷积神经网络 363
13.4.3 卷积神经网络训练与应用
举例 368
13.4.4 循环神经网络 373
13.4.5 其他深度学习技术 376
13.5 本章小结 378
本章概念与关键词 379
练习与思考 379
第14章 集成学习 381
14.1 机器学习中的若干问题 381
14.1.1 机器学习的主要任务类型 381
14.1.2 机器学习的泛化问题 382
14.1.3 维数灾难问题 384
14.1.4 机器学习模型的优越性问题 385
14.2 统计量重抽样技术 386
14.2.1 偏差与方差 386
14.2.2 刀切法统计量估计 387
14.2.3 自助法统计量估计 388
14.3 分类器重抽样技术与组合
分类器 389
14.3.1 Bagging法 389
14.3.2 Boosting法 389
14.3.3 Bagging法与Boosting法的主要
特点 390
14.3.4 组合分类器 390
14.4 随机森林与Adaboost算法 393
14.4.1 随机森林 393
14.4.2 Adaboost算法 396
14.5 分类模型中的若干问题 397
14.5.1 用二分类器处理多分类问题 397
14.5.2 多标签分类方法 399
14.5.3 类别数据不平衡问题 400
14.5.4 单纯提高准确率与单纯提高
召回率的方法 401
14.6 本章小结 402
本章概念与关键词 403
练习与思考 403
第15章 聚类分析与离群点分析 404
15.1 聚类问题与聚类类型 404
15.1.1 聚类问题 404
15.1.2 聚类类型 405
15.2 基于划分的聚类 406
15.2.1 k-means聚类 406
15.2.2 k-medoids聚类 408
15.3 层次聚类 410
15.3.1 簇间距离的计算 410
15.3.2 层次聚类方法 410
15.4 基于密度的聚类 412
15.4.1 DBSCAN聚类 412
15.4.2 OPTICS聚类 415
15.5 基于网格的聚类与基于模型的
聚类 417
15.5.1 CLIQUE聚类 417
15.5.2 自组织神经网络聚类原理 418
15.6 离群点分析 420
15.6.1 离群点分析 420
15.6.2 离群点检测 420
15.7 本章小结 421
本章概念与关键词 422
练习与思考 422
附录A Mann-Whitney U检验的
临界表 424
附录B Wilcoxon signed-rank检验按符号秩
和的临界表 424
附录C Wilcoxon signed-rank检验按min
(正号秩,负号秩)的临界表 425
附录D q分布(Studentized range distribution)
的临界表 426
附录E Dunnett双尾检验的临界表 428
附录F 相关系数R和判定系数R2的
临界表 430
附录G 鸢尾花数据集 431
参考文献 433
数据分析与数据挖掘 作者简介
姜维,男,副教授,1978年出生,汉族,博士,博士后、哈尔滨工业大学管理科学与工程系,硕士生导师。2007年哈尔滨工业大学计算机学院博士毕业,2010年哈尔滨工业大学管理科学与工程博士后。作为 编著者出版著作5部。作为 、第二作者发表论文50余篇。在计算机学报、自动化学报、电子学报、高技术通讯、计算机集成制造、系统工程理论与实践、系统工程与电子技术、国防科技大学学报、控制与决策等都有文章发表。发表3篇SCI 期刊文章,20余篇EI期刊文章。目前作为负责人共完成或承担 自然科学基金3项,已完成某军口预研基金项目, 博士点基金、中国博士后科学基金、中央高校基本科研专项项目,哈尔滨工业大学青年教改项目。作为第2负责人完成多项军口项目:总装备部军口重点预研项目,某预研基金项目,某军口重大专项项目,载人航天工程某项目。
- >
朝闻道
朝闻道
¥15.0¥23.8 - >
小考拉的故事-套装共3册
小考拉的故事-套装共3册
¥36.7¥68.0 - >
名家带你读鲁迅:故事新编
名家带你读鲁迅:故事新编
¥13.0¥26.0 - >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥17.4¥58.0 - >
经典常谈
经典常谈
¥16.3¥39.8 - >
名家带你读鲁迅:朝花夕拾
名家带你读鲁迅:朝花夕拾
¥10.5¥21.0 - >
人文阅读与收藏·良友文学丛书:一天的工作
人文阅读与收藏·良友文学丛书:一天的工作
¥14.7¥45.8 - >
我与地坛
我与地坛
¥15.4¥28.0
-
”互联网+“时代计算机算法的应用及其实践研究
¥19.9¥59 -
微服务设计
¥52.8¥69 -
图说深度学习:用可视化方法理解复杂概念
¥109¥188 -
计算机基础
¥17.2¥31 -
改变未来的九大算法
¥50¥68 -
生成式AI入门与AWS实战
¥77.8¥99.8