第 1 章 数据与 Python 1
1.1 数据与统计学 1
1.1.1 统计学与数据分析 1
1.1.2 数据分析方法和工具 1
1.1.3 数据及其来源 3
1.2 Python 的初步使用 6
1.2.1 Python 的下载与安装 7
1.2.2 模块的安装与加载 9
1.2.3 查看帮助文件 10
1.2.4 编写代码脚本 10
1.2.5 数据读取和保存 12
习题 14
第 2 章 数据处理和绘图基础 15
2.1 Python 的基本数据结构 15
2.1.1 数字和字符串 15
2.1.2 元组和列表 15
2.1.3 字典和集合 17
2.2 数组、序列和数据框 19
2.2.1 numpy 中的数组19
2.2.2 pandas 中的序列和数据框 20
2.3 数据抽样和筛选 30
2.3.1 抽取简单随机样本 30
2.3.2 数据筛选 32
2.3.3 生成随机数 33
2.4 生成频数分布表 34
2.4.1 类别数据频数表 34
2.4.2 数值数据类别化 382
2.5 Python 绘图基础 40
2.5.1 Python 的主要绘图模块 40
2.5.2 基本绘图函数 41
2.5.3 图形布局 44
2.5.4 图形颜色、线型和标记 47
习题 48
第 3 章 数据可视化 50
3.1 类别数据可视化 50
3.1.1 条形图 50
3.1.2 树状图 55
3.1.3 饼图和环形图 57
3.2 数据分布可视化 59
3.2.1 直方图与核密度图 59
3.2.2 箱线图和小提琴图 64
3.2.3 点图和蜂群图 68
3.3 变量间关系可视化 71
3.3.1 散点图 71
3.3.2 散点图矩阵和相关系数矩阵 75
3.3.3 3D 散点图和气泡图 77
3.4 样本相似性可视化 80
3.4.1 平行坐标图 80
3.4.2 雷达图 81
3.5 时间序列可视化 85
3.6 可视化的注意事项 86
3.6.1 图形元素 87
3.6.2 坐标轴刻度起点 88
3.6.3 图形比例 89
3.6.4 3D 图形 89
习题 90
第 4 章 数据的描述统计量 92
4.1 描述水平的统计量 92
4.1.1 平均数 92
4.1.2 分位数 94
4.1.3 众数 97
4.2 描述差异的统计量 98
4.2.1 极差和四分位差 98
4.2.2 方差和标准差 99
4.2.3 变异系数 100
4.3 描述分布形状的统计量 102
4.3.1 偏度系数 102
4.3.2 峰度系数 103
4.4 数据标准化 104
4.4.1 标准分数 104
4.4.2 极值标准化 105
4.5 一个综合描述的例子 108
4.5.1 可视化分析 108
4.5.2 统计量分析 111
习题 114
第 5 章 概率分布 116
5.1 什么是概率 116
5.2 随机变量的概率分布 117
5.2.1 随机变量及其概括性度量 117
5.2.2 随机变量的概率分布 119
5.2.3 几个重要的统计分布 123
5.3 样本统计量的概率分布 127
5.3.1 统计量及其分布 127
5.3.2 样本均值的抽样分布 128
5.3.3 样本方差的抽样分布 129
5.3.4 样本比例的抽样分布 129
5.3.5 统计量的标准误 131
习题 132
第 6 章 参数估计 134
6.1 参数估计的原理 134
6.1.1 点估计与区间估计 134
6.1.2 评价估计量的标准 138
6.2 总体均值的区间估计 143
6.2.1 一个总体均值的估计 143
6.2.2 两个总体均值差的估计 1454
6.3 总体比例的区间估计 150
6.3.1 一个总体比例的估计 150
6.3.2 两个总体比例差的估计 152
6.4 总体方差的区间估计 154
6.4.1 一个总体方差的估计 154
6.4.2 两个总体方差比的估计 156
习题 157
第 7 章 假设检验 159
7.1 假设检验的原理 159
7.1.1 提出假设 159
7.1.2 做出决策 161
7.1.3 表述结果 163
7.1.4 效应量 164
7.2 总体均值的检验 165
7.2.1 一个总体均值的检验 165
7.2.2 两个总体均值差的检验 168
7.3 总体比例的检验 173
7.3.1 一个总体比例的检验 173
7.3.2 两个总体比例差的检验 174
7.4 总体方差的检验 176
7.4.1 一个总体方差的检验 176
7.4.2 两个总体方差比的检验 178
7.5 正态性检验 178
7.5.1 正态概率图 179
7.5.2 S-W 检验和 K-S 检验 181
习题 183
第 8 章 类别变量分析 187
8.1 一个类别变量的拟合优度检验 187
8.1.1 期望频数相等 187
8.1.2 期望频数不等 189
8.2 两个类别变量的独立性检验 190
8.2.1 列联表与 χ2 独立性检验 191
8.2.2 应用 χ2 检验的注意事项 193
8.3 两个类别变量的相关性度量 193
8.3.1 ϕ 系数和 Cramer's V 系数 193
8.3.2 列联系数 194
习题 195
第 9 章 方差分析 197
9.1 方差分析的原理 197
9.1.1 什么是方差分析 197
9.1.2 误差分解 198
9.2 单因子方差分析 199
9.2.1 数学模型 199
9.2.2 效应检验 200
9.2.3 效应量分析 203
9.2.4 多重比较 204
9.3 双因子方差分析 206
9.3.1 数学模型 206
9.3.2 主效应分析 207
9.3.3 交互效应分析 212
9.4 方差分析的假定及其检验 217
9.4.1 正态性检验 217
9.4.2 方差齐性检验 219
习题 222
第 10 章 回归分析 224
10.1 变量间的关系 224
10.1.1 相关关系的描述 224
10.1.2 关系强度的度量 226
10.2 一元线性回归 228
10.2.1 什么是回归分析 228
10.2.2 模型估计 229
10.2.3 模型评估和检验 232
10.2.4 回归预测 236
10.2.5 模型诊断 239
10.3 多元线性回归 243
10.3.1 多元线性回归模型及其参数估计 243
10.3.2 拟合优度和显著性检验 247
10.3.3 共线性分析 249
10.3.4 回归预测和模型诊断 250
习题 252
第 11 章 时间序列分析和预测 254
11.1 时间序列的成分及其分解 254
11.1.1 时间序列的成分 254
11.1.2 成分分解 259
11.1.3 随机成分平滑 261
11.2 预测方法的选择与评估 264
11.3 指数平滑预测 265
11.3.1 指数平滑模型的一般表达 265
11.3.2 简单指数平滑预测 266
11.3.3 Holt 指数平滑预测 269
11.3.4 Winters 指数平滑预测 272
11.4 趋势外推预测 275
11.4.1 线性趋势预测 275
11.4.2 非线性趋势预测 278
习题 283
参考书目 285