第1篇基础篇
第1章数据挖掘概述
1.1什么是数据挖掘
1.1.1数据、信息、知识和智慧
1.1.2数据挖掘的定义
1.1.3数据挖掘的功能
1.1.4数据挖掘的发展简史
1.2数据挖掘的基本步骤及方法
1.2.1数据挖掘的基本步骤
1.2.2数据挖掘的任务
1.2.3数据挖掘的分析方法
1.3数据挖掘与统计学的关系
1.3.1数据挖掘与统计学的联系
1.3.2数据挖掘与统计学的区别
1.4数据挖掘与机器学的关系
1.4.1数据挖掘与机器学的联系
1.4.2数据挖掘与机器学的区别
1.5数据挖掘的十大算法
1.6数据挖掘的典型应用
题1
第2章Python数据分析基础
2.1Python程序概述
2.1.1基础数据类型
2.1.2变量和赋值
2.1.3作符和表达式
2.1.4字符串
2.1.5流程控制
2.1.6用户函数
2.1.7lambda函数
2.2Python常用的内置数据结构
2.2.1列表
2.2.2元组
2.2.3字典
2.2.4集合
2.3正则表达式
2.3.1概述
2.3.2常用方法
2.3.3提取网页中的信息
2.4文件的作
2.4.1文件的打开与关闭
2.4.2文件的读/写作
2.4.3文件的其他作
题2
第3章Python数据挖掘中的常用模块
3.1NumPy模块
3.1.1NumPy数据类型
3.1.2NumPy基本运算
3.1.3生成随机数的常用函数
3.1.4对象转换
3.1.5数组元素和切片
3.2Pandas模块
3.2.1Pandas中的数据结构
3.2.2DataFrame的基本属性
3.2.3DataFrame的常用方法
3.2.4DataFrame的数据查询与编辑
3.2.5Pandas数据的四则运算
3.2.6函数变换
3.2.7排序
3.2.8汇总与统计
3.2.9数据的分组与统计
3.2.10Pandas数据的读取与存储
3.3Matplotlib图表绘制基础
3.3.1Matplotlib简介
3.3.2Matplotlib绘图基础
3.3.3使用Matplotlib简单绘图
3.3.4文本注解
3.4Scikitlearn
3.4.1Scikitlearn的主要功能
3.4.2Scikitlearn自带的小规模数据集
3.4.3使用Scikitlearn生成数据集
3.5股票数据的简单分析
3.5.1抓取股票数据
3.5.2股票数据的各指标折线图
3.5.3各股票的5分钟涨幅柱状图
3.5.4股票各指标之间的关系对比
题3
第2篇数据预处理篇
第4章数据的描述与可视化
4.1概述
4.1.1数据的描述
4.1.2数据的可视化
4.2数据对象与属性类型
4.2.1数据对象
4.2.2属性与属性类型
4.3数据的基本统计描述
4.3.1中心趋势的度量
4.3.2数据散布的度量
4.4数据对象的相似性度量
4.4.1数据矩阵与相似矩阵
4.4.2标称属性的相异性
4.4.3二元属性的相异性
4.4.4数值属性的相似性度量
4.4.5序数属性的相似性度量
4.4.6混合类型属性的相似性
4.4.7余弦相似性
4.5几种数据可视化技术
4.5.1基于像素的可视化技术
4.5.2几何投影技术
4.5.3基于图符的可视化技术
4.5.4层次可视化技术
4.5.5高维数据的可视化
4.5.6文本词云图
题4
第5章数据采集和预处理
5.1概述
5.1.1数据采集概述
5.1.2数据采集的方法
5.1.3数据预处理概述
5.2数据清洗
5.2.1缺失值清洗
5.2.2异常值清洗
5.2.3格式内容清洗
5.2.4逻辑错误清洗
5.2.5非需求数据清洗
5.2.6关联性验证
5.3数据集成
5.3.1数据集成过程中的关键问题
5.3.2Python数据集成
5.4数据标准化
5.4.1zscore方法
5.4.2差标准化方法
5.4.3大对值标准化方法
5.5数据归约
5.5.1维归约
5.5.2数量归约
5.5.3数据压缩
5.6数据变换与数据离散化
5.6.1数据变换
5.6.2数据离散化
题5
第3篇数据挖掘算法描述和应用篇
第6章分类模型
6.1概述
6.1.1基本概念
6.1.2训练集和测试集
6.1.3分类的一般流程
6.2KNN分类模型
6.2.1KNN算法概述
6.2.2KNN算法描述
6.2.3使用Python实现KNN分类算法
6.2.4K值的确定
6.3Rocchio分类模型
6.3.1Rocchio算法概述
6.3.2Rocchio算法的原理及分类器的构建
6.3.3使用Python实现Rocchio文本分类
6.4决策树分类模型
6.4.1决策树分类概述
6.4.2决策树的生成原理
6.4.3ID3/ID4.5/CART算法
6.4.4决策树的应用
6.5贝叶斯分类模型
6.5.1贝叶斯分类概述
6.5.2朴素贝叶斯分类器
6.5.3朴素贝叶斯模型的缺点
6.5.4朴素贝叶斯模型的Python实现
6.6支持向量机
6.6.1SVM的基本原理
6.6.2SVM分类的基本方法
6.6.3使用Python实现SVM分类的案例
6.7分类模型的评估与选择
6.7.1分类模型的性能评估
6.7.2分类模型的选择方法
题6
第7章聚类分析
7.1概述
7.1.1聚类分析的概念
7.1.2聚类分析的征
7.1.3聚类分析的基本步骤
7.2基于划分的聚类方法
7.2.1kmeans聚类方法
7.2.2kmedoids聚类方法
7.2.3kmeans与kmedoids的区别
7.3基于层次的聚类方法
7.3.1簇间距离度量方法
7.3.2基于层次的聚类算法
7.3.3基于层次聚类算法的Python实现
7.4基于密度的聚类方法
7.4.1与密度聚类相关的概念
7.4.2DBSCAN算法
7.4.3OPTICS算法
7.4.4DENCLUE算法
7.5基于网格的聚类方法
7.5.1基于网格的聚类概述
7.5.2CLIQUE算法
7.5.3STING算法
7.5.4基于网格聚类算法的Python实现
7.6基于模型的聚类方法
7.6.1基于模型的聚类概述
7.6.2EM算法
7.6.3COBWEB算法
7.6.4用EM算法求解高斯混合模型
7.7聚类评估
7.7.1估计聚类趋势
7.7.2确定簇数
7.7.3测定聚类质量
题7
第8章关联规则分析
8.1概述
8.1.1关联规则概述
8.1.2关联规则的分类
8.2关联规则的相关概念
8.2.1基本概念
8.2.2支持度、置信度和提升度
8.2.3频繁项集
8.3Apriori算法
8.3.1Apriori算法的思想
8.3.2Apriori算法的描述
8.3.3Apriori算法的Python实现
8.4FPGrowth算法
8.4.1FPGrowth算法采用的策略
8.4.2构建FPTree
8.4.3从FPTree中挖掘频繁模式
8.4.4FPGrowth算法的Python实现
8.5Eclat算法
8.5.1Eclat算法概述
8.5.2Eclat算法的Python实现
8.6关联规则的典型应用场景
题8
第9章预测模型
9.1预测模型概述
9.1.1预测方法的分类
9.1.2预测分析的一般步骤
9.2回归分析预测模型
9.2.1一元线性回归预测模型
9.2.2多元线性回归预测模型
9.2.3非线性回归预测模型
9.2.4逻辑回归模型
9.2.5多项式回归模型
9.3趋势外推法预测模型
9.3.1趋势外推法概述
9.3.2常用的趋势外推法预测模型
9.3.3趋势外推法的Python实现
9.4时间序列预测法模型
9.4.1时间序列预测法概述
9.4.2常用的时间序列预测法模型
题9
第4篇后续学引导篇
第10章深度学简介
10.1深度学概述
10.1.1人工智能、机器学和深度学的关系
10.1.2深度学的发展历程
10.2感知机
10.2.1感知机的起源
10.2.2感知机的局限性
10.3前馈经网络
10.3.1经元
10.3.2前馈经网络概述
10.3.3训练与预测
10.4反向传播算法
10.4.1反向传播学算法
10.4.2反向传播学的Python实现
10.5卷积经网络
10.5.1卷积经网络概述
10.5.2卷积经网络的整体结构
10.6循环经网络
10.6.1循环经网络概述
10.6.2循环经网络的设计模式
10.6.3循环经网络的运算
10.6.4循环经网络的Python实现
10.7生成对抗网络
10.7.1生成对抗网络概述
10.7.2生成对抗网络算法
题10
参考文献