目 录
第1章 商业分析简介 1
1.1 本书目的 3
1.2 容易混淆的术语 3
1.3 商业分析的发展动因 4
1.3.1
计算机软件包和应用程序的增长 5
1.3.2
整合各种数据源的可行性 5
1.3.3
无限存储和计算能力的增长 6
1.3.4
简单易用的编程工具和平台 6
1.3.5
竞争激烈世界中的生存与发展 6
1.3.6
全球化商业的复杂性 6
1.4 商业分析的应用 6
1.4.1
市场营销与销售 7
1.4.2
人力资源 7
1.4.3
产品设计 7
1.4.4
服务设计 8
1.4.5
客户服务和支持范围 8
1.5 商业分析师的**技能 8
1.5.1
理解商业和商业问题 8
1.5.2
理解数据分析技术和算法 9
1.5.3
具备良好的计算机编程知识 9
1.5.4
理解数据结构和数据存储/仓储技术 9
1.5.5
了解统计学和数学的相关概念知识 9
1.6 商业分析项目的分析过程
10
1.7 商业分析框架 11
1.8 小结 12
第2章 R语言概述 13
2.1 数据分析工具 13
2.2
R语言安装 16
2.2.1
安装R语言 16
2.2.2
安装RStudio 17
2.2.3
探索RStudio界面 18
2.3
R编程基础 19
2.3.1
赋值 20
2.3.2
创建向量 21
2.4
R语言对象类型 21
2.5
R语言的数据结构 23
2.5.1
矩阵 23
2.5.2
数组 24
2.5.3
数据框 26
2.5.4
列表 27
2.5.5
因子 28
2.6 小结 29
第3章 R语言数据分析 31
3.1 读写数据 31
3.1.1
从文本文件读取数据 32
3.1.2
从Microsoft Excel文件读取数据 35
3.1.3
从Web读取数据 37
3.2 在R语言中使用控制结构 37
3.2.1
if-else 38
3.2.2
for循环 39
3.2.3
while循环 39
3.2.4
循环功能 40
3.2.5
在R语言中自编函数 47
3.3 使用R语言软件包和库 48
3.4 小结 49
第4章 描述性分析概述 51
4.1 描述性分析 54
4.2 总体和样本 54
4.3 有关的统计参数 55
4.3.1
均值 55
4.3.2
中位数 57
4.3.3
众数 59
4.3.4
全距 59
4.3.5
分位数 60
4.3.6
标准差(Standard Deviation) 61
4.3.7
方差(Variance) 64
4.3.8
R语言的summary命令 64
4.4 数据的图形描述 65
4.4.1
R语言的plot命令 65
4.4.2
直方图 67
4.4.3
条形图 68
4.4.4
箱线图 68
4.5 数据框计算 69
4.6 概率 73
4.6.1
互斥事件的概率 74
4.6.2
相互独立事件的概率 74
4.6.3
非互斥事件概率 75
4.6.4
概率分布 75
4.7 小结 77
第5章 商业分析过程与数据探索
79
5.1 商业分析过程 79
5.1.1
**阶段:理解商业问题 79
5.1.2
第二阶段:收集和整合数据 79
5.1.3
第三阶段:预处理数据 80
5.1.4
第四阶段:探索和可视化数据 80
5.1.5
第五阶段:选择建模技术和算法 81
5.1.6
第六阶段:评估模型 81
5.1.7
第七阶段:管理和审查报告 81
5.1.8
第八阶段:部署模型 81
5.2 理解商业问题 82
5.3 收集和整合数据 82
5.3.1
抽样 83
5.3.2
变量选择 84
5.4 预处理数据 85
5.4.1
数据类型 85
5.4.2
数据准备 86
5.4.3
使用R语言进行数据预处理 87
5.5 数据探索和数据可视化 91
5.5.1
表格 92
5.5.2
汇总表 92
5.5.3
图形 93
5.5.4
散点图矩阵 97
5.5.5
数据转换 101
5.6 使用建模技术和算法 102
5.6.1
描述性分析 103
5.6.2
预测分析 103
5.6.3
机器学习 103
5.7 评估模型 106
5.7.1
训练数据分区 106
5.7.2
测试数据分区 106
5.7.3
验证数据分区 107
5.7.4
交叉验证 107
5.7.5
分类模型评估 108
5.7.6
回归模型评估 111
5.8 提交管理报告和审查 112
5.8.1
描述问题 112
5.8.2
使用的数据集 112
5.8.3
执行数据清洗 112
5.8.4
创建模型的方法 112
5.8.5
模型部署前提条件 113
5.8.6
模型部署和使用 113
5.8.7
问题处理 113
5.9 部署模型 113
5.10
小结 114
第6章 监督机器学习:分类 115
6.1 什么是分类?什么是预测?
115
6.2 概率分类器模型 116
6.2.1
示例 117
6.2.2
R语言朴素贝叶斯分类器 118
6.2.3
朴素贝叶斯分类器的优点和局限性 119
6.3 决策树 120
6.3.1
递归分割决策树算法 121
6.3.2
信息增益 121
6.3.3
决策树示例 123
6.3.4
决策树归纳 124
6.3.5
树分类规则 127
6.3.6
过拟合和欠拟合 127
6.3.7
偏差和方差(Bias and Variance) 128
6.3.8
避免过拟合误差和确定决策树生长的规模 129
6.4 其他分类器类型 131
6.4.1
K-*近邻 131
6.4.2
随机森林 132
6.5
R语言分类示例 134
6.6 小结 138
第7章 无监督机器学习 139
7.1 聚类概述 139
7.2 什么是聚类 140
7.2.1
两个记录之间的测量方法 141
7.2.2
分类变量的距离度量 142
7.2.3
混合型数据的距离度量 142
7.2.4
两个聚类之间的距离 143
7.3 层次聚类 145
7.3.1
树状图 145
7.3.2
层次聚类的局限性 145
7.4 非层次聚类 146
7.4.1 k-means算法 146
7.4.2
k-means聚类的局限性 147
7.5 聚类案例研究 148
7.5.1
仅保留数据集中的相关变量 149
7.5.2
从数据集中删除任何异常值 149
7.5.3
数据归一化(Standardize the Data) 150
7.5.4
计算数据点之间的距离 150
7.6 关联规则 157
7.6.1
选择规则 158
7.6.2
关联规则生成示例 160
7.6.3
解读结果 161
7.7 小结 162
第8章 简单线性回归分析 163
8.1 概述 163
8.2 相关性 164
8.3 假设检验 167
8.4 简单线性回归分析 168
8.4.1
回归假设 168
8.4.2
简单线性回归方程 168
8.4.3
R语言创建简单回归方程 169
8.4.4
检验回归假设 171
8.4.5
结论 176
8.4.6
预测响应变量 176
8.4.7
补充说明 177
8.5 小结 178
第9章 多元线性回归分析 179
9.1 使用多元线性回归分析
180
9.1.1
数据 181
9.1.2
相关性 181
9.1.3
构建模型 182
9.1.4
验证回归假设 184
9.1.5
多重共线性 188
9.1.6
逐步多元线性回归分析 190
9.1.7
全子集多元线性回归分析 191
9.1.8
多元线性回归方程 193
9.1.9
结论 193
9.2
R语言的替代方法 193
9.3 预测响应变量 194
9.4 训练和测试模型 195
9.5 交叉验证 196
9.6 小结 198
第10章 逻辑回归分析 201
10.1
逻辑回归 202
10.1.1
数据 203
10.1.2
构建模型 204
10.1.3
模型拟合验证 207
10.1.4
一般注意事项 208
10.1.5
多重共线性 208
10.1.6
离散 209
10.1.7
逻辑回归分析结论 209
10.2
模型训练和测试 209
10.2.1
预测响应变量 211
10.2.2
验证逻辑回归模型的其他替代方法 212
10.3
多项逻辑回归分析 213
10.4
正则化 214
10.5
小结 220
第11章 大数据分析:介绍及未来趋势
221
11.1
大数据生态系统 222
11.2
大数据分析的未来趋势 225
11.2.1
发展壮大的社交媒体 225
11.2.2
创建数据湖 225
11.2.3
企业用户手中的可视化工具 225
11.2.4
规范性分析 225
11.2.5
物联网 226
11.2.6
人工智能 226
11.2.7
全数据处理 226
11.2.8
数据垂直应用和横向应用 226
11.2.9
实时分析 226
11.2.10
将数据分析工具交由企业用户使用 227
11.2.11
将解决方案从一个工具迁移到另一个工具 227
11.2.12
云无处不在 227
11.2.13
数据库内分析 227
11.2.14
内存分析 228
11.2.15
机器学习的自主服务 228
11.2.16
安全和合规性 228
11.2.17
医疗保健 228
引用 95
第4章 制作自动机器车 97
自动系统介绍 97
介绍移动机器人 99
搭建机器车 100
DIY机器人平台 100
集成的机器人平台 102
使用Pololu Zumo robot for Arduino 104
用计算机控制机器车 109
使用GPS模块导航 117
介绍地图引擎平台 124
制作基于GPS的小车 128
制作自动机器车 130
总结 131
引用 131
第5章 在物联网项目中添加语音技术
133
语音技术介绍 133
声音传感器和驱动器介绍 134
语音技术的模式识别介绍 143
介绍语音和声音模块 143
为物联网项目增加语音控制 145
设置EasyVR shield 3 145
创建语音命令 148
给语音板布线 151
编写Sketch程序 151
测试 157
让IoT板说话 157
设置 157
布线 157
编写Sketch程序 158
测试 159
让Raspberry Pi说话 159
设置 159
编写Python程序 162
下一步是什么? 163
总结 163
引用 163
第6章 为物联网项目搭建数据云
165
对云技术的介绍 165
介绍基于云的数据科学 166
连接IoT板到云服务器 167
微软Azure IoT 167
亚马逊AWS IoT 168
Arduino云 168
使用微软Azure IoT Hub 180
设置微软Azure IoT Hub 180
注册IoT设备 182
编写程序 186
构建科学型云平台 192
部署Azure机器学习 193
发布到Azure ML作为Web服务 194
构建带有科学型数据云的IoT应用 196
总结 196
引用 197