第1章 导论 1
1.1 数据挖掘的起源 1
1.2 数据挖掘的定义 3
1.3 数据挖掘的应用领域 4
1.4 数据挖掘的过程 5
1.4.1 CRISP-DM模型 5
1.4.2 SEMMA模型 6
1.5 数据挖掘的任务 7
1.6 数据挖掘工具和共享资源 9
1.6.1 数据挖掘软件 9
1.6.2 数据挖掘共享数据集 10
1.6.3 共享的数据挖掘算法软件包 10
1.7 数据挖掘发展趋势 10
1.8 本章小结 11
习题 11
第2章 数据、统计特征及数据预处理 12
2.1 数据与数据类型 12
2.1.1 数据集的特性 13
2.1.2 数据集类型 13
2.2 数据统计特征 15
2.2.1 频率和众数 15
2.2.2 百分位数 15
2.2.3 位置度量:均值和中位数 16
2.2.4 离散度量:极差和方差 16
2.2.5 多元汇总统计 17
2.3 数据预处理 18
2.3.1 数据清理 18
2.3.2 数据集成 19
2.3.3 数据变换 19
2.3.4 数据归约 20
2.3.5 离散化和概念分层 21
2.4 距离和相似性度量 24
2.4.1 对象之间的距离 24
2.4.2 数据集之间的距离 26
2.4.3 相似性度量 27
2.5 本章小结 29
习题 29
第3章 数据仓库及联机分析处理 30
3.1 数据仓库概念 30
3.1.1 数据仓库定义及关键特征 30
3.1.2 数据仓库与传统数据库系统的区别 31
3.1.3 数据仓库的体系结构 32
3.1.4 几种数据仓库模型 33
3.1.5 元数据库 33
3.2 数据仓库建模 34
3.2.1 数据立方体 34
3.2.2 多维数据模型的模式 35
3.3 数据仓库设计与实现 36
3.3.1 设计视图 36
3.3.2 设计方法 36
3.4 本章小结 37
习题 37
第4章 回归分析 38
4.1 线性回归分析 38
4.1.1 一元线性回归分析 38
4.1.2 多元线性回归分析 40
4.2 非线性回归分析 40
4.3 逻辑回归分析 42
4.4 本章小结 43
习题 44
第5章 数据分类与预测 45
5.1 分类定义 45
5.2 分类挖掘一般过程 46
5.3 决策树分类法 47
5.3.1 决策树概念 48
5.3.2 经典决策树分类方法 49
5.3.3 ID3算法 51
5.3.4 C4.5算法 55
5.3.5 C5.0算法 57
5.3.6 CART算法 58
5.3.7 决策树分类算法评估 61
5.3.8 案例分析:决策树算法应用于电信客户流失分析 63
5.4 贝叶斯分类方法 65
5.4.1 贝叶斯算法基本原理 65
5.4.2 朴素贝叶斯分类方法 65
5.5 k-近邻分类方法 67
5.5.1 k-近邻算法描述 67
5.5.2 k-近邻算法的优缺点 69
5.5.3 案例分析:乘坐式割草机分类销售 69
5.6 人工神经网络分类方法 71
5.6.1 神经元概念 71
5.6.2 神经网络模型 72
5.6.3 神经网络的应用 75
5.7 利用BP神经网络预测岩溶塌陷 75
5.7.1 确定BP神经网络拓扑结构 76
5.7.2 提取原始数据 77
5.7.3 数据预处理 77
5.7.4 建立岩溶塌陷预测的BP神经网络挖掘模型 78
5.7.5 岩溶塌陷预测 78
5.8 本章小结 79
习题 79
第6章 关联分析 81
6.1 相关概念 81
6.2 二元属性的关联规则挖掘 82
6.2.1 Apriori算法及效率分析 82
6.2.2 CARMA算法 86
6.2.3 两种算法的比较分析 86
6.3 非二元属性的关联规则挖掘 87
6.4 关联规则的合并 88
6.5 关联规则的优化 89
6.5.1 支持度与可信度的局限 89
6.5.2 兴趣度的引入 90
6.5.3 提升度的引入 90
6.6 洗浴时间与学习成绩的关联分析 91
6.6.1 数据提取与预处理 91
6.6.2 洗浴习惯与学习成绩的关联分析 93
6.7 本章小结 94
习题 94
第7章 聚类分析 96
7.1 聚类分析概述 96
7.2 基于划分的聚类分析 98
7.2.1 基本k-means聚类算法 99
7.2.2 二分k-means聚类算法 101
7.2.3 k-means 聚类算法 101
7.3 基于层次的聚类分析 103
7.3.1 BIRCH算法 104
7.3.2 CURE算法 106
7.3.3 ROCK算法 106
7.4 基于密度的聚类算法 107
7.5 一趟聚类算法 108
7.5.1 一趟聚类算法描述 109
7.5.2 半径阈值的选择 109
7.6 基于模型的聚类分析 111
7.6.1 SOFM自组织竞争算法 112
7.6.2 *大期望值算法 115
7.7 聚类算法评价 116
7.7.1 内部质量评价准则 116
7.7.2 外部质量控制准则 118
7.8 利用k-means 算法划分地震区域 119
7.8.1 数据预处理 120
7.8.2 划分预测地震区域 120
7.9 利用SOFM算法划分空间电场扰动数据 121
7.9.1 数据提取 121
7.9.2 SOFM网设计 122
7.9.3 数据聚类结果分析 123
7.10 本章小结 124
习题 124
第8章 异类数据挖掘 126
8.1 概述 126
8.2 基于统计的方法 127
8.3 基于距离的方法 128
8.4 基于相对密度的方法 131
8.5 基于聚类的方法 134
8.5.1 基于对象的异类因子方法 134
8.5.2 基于簇的异类因子方法 135
8.5.3 基于聚类的动态数据异类点检测方法 136
8.6 基于物元模型的异类数据挖掘 136
8.6.1 物元理论与可拓集 137
8.6.2 关联函数 137
8.6.3 可拓数据挖掘 139
8.7 异类数据挖掘方法的评估 141
8.8 利用可拓数据挖掘算法查找震前电离层异常 141
8.8.1 研究对象物元模型及关联函数 142
8.8.2 经典域的确定 142
8.8.3 基于可拓数据挖掘的异类数据分析 143
8.9 本章小结 144
习题 144
第9章 文本挖掘 145
9.1 概述 145
9.1.1 文本挖掘的发展 145
9.1.2 文本挖掘数据准备 146
9.1.3 文本挖掘过程 146
9.2 文本挖掘基础——分词 147
9.2.1 基于词典的分词法 147
9.2.2 基于统计的分词法 148
9.2.3 基于语法和规则的分词法 148
9.3 文本表示方法 148
9.3.1 布尔逻辑模型 149
9.3.2 向量空间模型 149
9.4 文本特征选择 150
9.4.1 文档频率方法 150
9.4.2 互信息方法 150
9.4.3 信息增益方法 151
9.4.4 ?2统计方法 151
9.5 文本分类 151
9.6 文本聚类 154
9.7 文本摘要自动生成 156
9.7.1 自动文摘生成步骤 156
9.7.2 自动摘要相关技术 157
9.8 基于KNN的新闻稿文本分类 158
9.8.1 收集新闻稿文本 158
9.8.2 新闻文本预处理 159
9.8.3 文本表示 160
9.8.4 利用KNN进行文本分类 160
9.8.5 分类结果评估 161
9.9 本章小结 161
习题 162
第10章 Web挖掘 163
10.1 Web结构挖掘 163
10.2 页面内容挖掘 165
10.2.1 图像信息数据的挖掘 165
10.2.2 视频数据挖掘 166
10.2.3 音频数据挖掘 166
10.3 Web日志挖掘 167
10.3.1 日志数据采集及预处理 167
10.3.2 基于统计的Web日志挖掘 169
10.4 本章小结 170
习题 171
附录A 习题参考答案 172
参考文献 184