-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
数据挖掘方法与应用 版权信息
- ISBN:9787030694430
- 条形码:9787030694430 ; 978-7-03-069443-0
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
数据挖掘方法与应用 内容简介
本书对数据挖掘中常用的建模算法进行系统介绍,内容涵盖了数据预处理、关联规则挖掘、聚类分析、决策树及组合算法、贝叶斯分类、支持向量机、人工神经网络等。在阐述每种算法基本理论的基础上,同时给出基于R软件的应用方法。这种理论与应用相结合的方式为读者理解和运用这些方法提供了坚实的基础,有助于读者由浅入深、循序渐进地理解相关内容并用以解决实际问题。 本书可以作为高等院校本科生、研究生的数据挖掘课程教材,也可以作为从事数据分析、高等统计分析工作以及相关数据工程技术人员的参考用书。
数据挖掘方法与应用 目录
第1章 数据挖掘导论 1
1.1 数据挖掘的概念 1
1.2 数据挖掘的产生背景及意义 2
1.3 数据挖掘的功能及步骤 3
1.4 数据挖掘的常用方法 5
1.5 小结 7
思考题与练习题 7
第2章 数据预处理 8
2.1 数据预处理简介 8
2.2 数据清洗 9
2.3 数据集成 11
2.4 数据变换 11
2.5 数据规约 14
2.6 基于R语言的数据预处理 17
2.7 小结 28
思考题与练习题 29
第3章 关联规则挖掘 30
3.1 关联规则的基本概念 30
3.2 简单关联规则挖掘 32
3.3 序列关联规则挖掘 36
3.4 基于R语言的关联规则挖掘 40
3.5 小结 47
思考题与练习题 48
第4章 聚类分析 49
4.1 聚类分析的简介 49
4.2 距离与相似度的度量 49
4.3 K均值聚类 53
4.4 密度聚类 56
4.5 层次聚类 58
4.6 基于R语言的聚类分析 60
4.7 小结 66
思考题与练习题 67
第5章 决策树及组合算法 68
5.1 决策树简介 68
5.2 决策树的生长 70
5.3 决策树的剪枝 76
5.4 基于决策树的组合算法 78
5.5 基于R语言的决策树建模 81
5.6 小结 89
思考题与练习题 90
第6章 贝叶斯分类 91
6.1 贝叶斯定理 91
6.2 朴素贝叶斯 93
6.3 贝叶斯信念网络 96
6.4 贝叶斯信念网络特点及应用 100
6.5 基于R语言的贝叶斯分类建模 100
6.6 小结 105
思考题与练习题 105
第7章 支持向量机 107
7.1 支持向量机简介 107
7.2 线性支持向量机 110
7.3 非线性支持向量机 116
7.4 基于R语言的支持向量机建模 121
7.5 小结 134
思考题与练习题 134
第8章 人工神经网络 135
8.1 人工神经网络概述 135
8.2 感知机模型 138
8.3 BP算法原理 140
8.4 BP神经网络的R语言实现 145
8.5 小结 151
思考题与练习题 151
数据挖掘方法与应用 节选
第1章 数据挖掘导论 【学习目标】通过本章学习,了解数据挖掘的概念、产生背景、意义、功能、步骤及常用方法。 1.1 数据挖掘的概念 数据挖掘(data mining,DM)又称为数据库中的知识发现(knowledge discover in database,KDD),涉及的领域包括机器学习、人工智能、数据分析、数据库及统计学等。数据挖掘就是通过数据分析,从大量数据中寻找其规律的技术,即从大量的、不完全的、随机的数据中,提取潜在的、有价值的、可理解的信息的过程。 数据挖掘的结果具有以下三个基本特征。 1)潜在性 数据挖掘结果的潜在性是指,要发现那些隐藏在数据中的,不易靠直觉发现的,甚至违背直觉的信息。例如,经典的“尿布与啤酒”案例。在这个案例中,沃尔玛利用数据挖掘对其门店的原始交易数据进行分析后意外发现:跟尿布一起购买*多的商品竟然是啤酒。经过调研后发现,住在该超市周边的顾客大部分为年轻夫妇,妻子们经常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们买完尿布后又会为自己购买一些啤酒。在常规思维中,尿布与啤酒是毫不相关的两种商品,但通过数据挖掘,能将这种不易靠直觉发现的信息挖掘出来,这就是数据挖掘结果的潜在性。 2)有价值性 数据挖掘结果的有价值性体现在是否对决策有意义。对决策没有指导意义的结果是没有价值的。例如,在对居民健康的研究中,若得到的结论是居民健康与运动有显著关系,那么这种结论就不具有很高的价值,因为这是一个常识,常识性的结论或已被人们掌握的事实是没有研究意义的。 3)可理解性 数据挖掘结果的可理解性体现在两方面。一方面是指分析的结论对研究问题具有可解释性。例如,在对某地区犯罪率的数据挖掘研究中,如果得到的结论是“该地区的犯罪率与该地区冰激凌的销售量有密切关系”,那么这样的结论就不具有可理解性。事实上,若研究结果表现出不可理解的相关性,一个可能的原因是研究的变量之间存在虚假相关,另一个可能的原因是其他相关因素传递导致的表象。数据挖掘结果的可理解性的另一方面是指结果易于被用户理解,这就要求结果的表达具有简洁性,*好能用自然语言描述所发现的结果。 1.2 数据挖掘的产生背景及意义 1.2.1 数据挖掘的产生背景 数据挖掘的产生和发展是以相关学科的发展为基础的。随着数据库技术的发展及数据的应用,各行业产生和积累的数据越来越多,传统的查询和统计方法已经无法满足人们对海量数据的分析需求,需要有一种有效地从数据库中获取有价值信息的技术和方法。与此同时,计算机技术的另一个领域—人工智能自1956年诞生之后就取得了重大进展,在经历了博弈时期、自然语言理解、知识工程等阶段后,步入了机器学习的阶段,为数据挖掘提供了有效的技术支撑。在这样的条件下,用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的信息和知识,这两者的结合促成了数据库中的知识发现的产生。 数据挖掘是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,融合了机器学习、模式识别、人工智能、数据库技术、统计学和数据可视化等多个领域的理论和技术。 数据挖掘的发展过程是一个兼容并蓄的成长过程,主要分为三个发展阶段,如图1-1所示。在初期时,数据挖掘仅仅局限于数据库中的知识发现,发展到中期时,通过融合多学科发展实现了内涵的不断丰富和完善,发展到现在,数据挖掘已经成为大数据时代的关键分析技术。 图1-1 数据挖掘发展历程示意图 1.2.2 数据挖掘技术的意义 互联网技术、物联网技术和云计算技术的蓬勃发展,创造出了一个数字化的网络体系。运行于其中的搜索引擎服务、大型电子商务、互联网金融、网络社交平台等,不断改变着人们生活与生产的方式。同时,参与其中的个人、企业和组织每时每刻都在释放出巨大的数字比特流,从而造就了一个崭新的大数据时代。 数据挖掘技术具有很高的战略意义,它不仅能够存储海量的数据信息,更重要的是能够对这些海量的数据进行专业化的处理。通常人们总结大数据有“4V”的特点,即大量(volume)、高速(velocity)、多样(variety)、价值(value)。采用有效的方法,快速分析这些大量和多样化的数据,并挖掘出其内在的价值就是数据挖掘的意义所在。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。 1.3 数据挖掘的功能及步骤 1.3.1 数据挖掘的功能 数据挖掘就是在指定的数据任务中找到模式类型。从数据分析角度出发,数据挖掘可分为两类:描述性数据挖掘和预测性数据挖掘。描述性数据挖掘即以简洁概要的方式刻画出数据的一般特性,而预测性数据挖掘就是基于当前的数据对未来进行预测。数据挖掘的功能主要包括以下六个方面。 1)概念描述 概念描述是指对一个包含大量数据的集合总体的情况概述。对一个含有大量数据的集合特征进行数据汇总、分析和比较并获得简洁、准确的描述。 2)关联分析 关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。 其中一个广泛的应用是购物篮分析。在这个过程中通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。比如,购买面包的会员中同时购买牛奶的可能性大,还是同时购买香肠的可能性大?购买电水壶的顾客一个月后购买除垢剂的可能性有多大?通过对数据的关联分析,找到上述问题的答案,这对超市的货架布置、进货计划制订、商品促销等都有重要的帮助。 3)数据预测 数据预测就是基于对历史数据的分析,预测新数据的特征或数据的未来发展趋势等。数据预测主要包括分类和回归。如果预测的变量是离散的,称该预测过程为分类;如果预测的变量是连续的,称该预测过程为回归。 分类就是找出一组能够描述数据集合典型特征的模型,使得能够分类识别未知数据的归属或类别,分类输出属性是离散的、无序的。例如,在银行业务中,根据贷款申请者的信息来判断贷款者是属于“安全”类,还是“风险”类。分类算法有感知机、K近邻、朴素贝叶斯、决策树、支持向量机等。 回归分析就是用回归方程来表示变量之间的数量关系,即通过建立一个预测模型,来定量地描述和评估因变量与一个或多个自变量之间的关系。例如,用线性回归模型通过房子参数预测房价,就是一个典型的回归问题。 4)聚类分析 数据挖掘的对象是海量大数据,大数据集中蕴含着非常多的信息,较为典型的是大数据集中可能包含着若干小数据集。这些数据子集是在没有任何主观划分依据下自然形成的,数据子集“客观存在”的主要原因是:每个数据子集内部数据成员的整体特征相似,而子集之间的整体特征则差异明显。通俗来讲,就是子集内部成员之间“关系紧密”,而数据集之间则“关系疏远”。聚类分析就是按照某种相似性度量,将具有相似特征的样本归为一类,使得类内差异较小,而类间的差异较大。 例如,在研究顾客属性与消费偏好之间的关系时,我们发现,通常具有相同属性的顾客(如相同性别、年龄、收入等),其消费偏好会较为相似,不同属性的顾客群(如男性和女性,演员、教师和信息技术人员等)的消费偏好则可能出现较大差异。于是“自然”形成了在属性和消费偏好等整体特征上差异较大的若干个顾客群,即数据子集。聚类分析就是将这个数据集中这些可能存在的“小类”找出来,并为营销策略提供针对性的依据。 聚类分析与分类预测的明显不同之处在于:分类技术是一种有监督的学习,即每个训练样本的数据对象已经有类标识,而聚类是一种无监督的学习,也就是在不知道欲划类别的情况下,根据信息相似度原则进行信息聚类的一种方法。 5)孤立点分析 数据库中可能包含一些与数据的一般行为或模型不一致的数据对象,这些数据对象被称为孤立点。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃,然而在一些应用场合中,如各种商业欺诈行为的自动监测中,小概率发生事件往往比经常发生的事件更有挖掘价值和研究意义。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为是不一致的;二是找到一个有效的方法来挖掘这样的孤立点。 6)演变分析 数据演变分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括对时间相关数据的概念描述、关联分析、分类分析、聚类分析等。 1.3.2 数据挖掘的步骤 数据挖掘的步骤会随应用领域的不同而有所变化,每一种数据挖掘技术都有各自的特性和步骤,在不同的问题和需求条件下,数据挖掘的过程也会存在差异。另外,数据的质量、人员的专业性都会对数据挖掘过程造成影响。以上这些因素造成了数据挖掘在不同领域中的运用、规划和流程的差异性。也就是说,即使在同一产业中,分析过程也会因技术和专业知识涉入程度的不同而不同。因此,将数据挖掘过程系统化、标准化是十分重要的。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,将数据挖掘的功能发挥到*大。数据挖掘的过程包括以下八个步骤。 (1)信息收集:根据确定的数据分析对象和研究意义,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。 (2)数据集成:把不同来源、格式、特点的数据在逻辑上或物理上有机地集中起来。 (3)数据规约:在多数数据挖掘算法的执行过程中,即使只有少量的数据也需要花费很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原始数据的完整性,并且规约后对执行数据挖掘的结果没有影响。 (4)数据清洗:当数据库中存在不完整的、含有噪声的、不一致的信息时,会对数据挖掘的结果造成影响,这就需要进行数据清洗,使得数据完整、正确、一致。 (5)数据变换:通过平滑聚集、数据概化、规范化或离散化等方式将数据转换成适合我们做数据挖掘的形式。 (6)数据挖掘过程:根据数据库中的数据信息,选择适合的分析工具,应用数据挖掘中的算法,得出有用的分析信息。 (7)测试和验证挖掘结果:从商业需求角度,由专家来检验数据挖掘结果的正确性。 (8)知识表示:将数据挖掘所得到的结果以可视化的方式呈现出来,即对结果的解释和应用。 由上述步骤可以看出,数据挖掘过程包含了大量的准备与规划工作,在数据挖掘过程中,60%的时间和精力是花费在数据预处理阶段的,其中包括数据规约、数据清洗、数据变换、数据集成等。 1.4 数据挖掘的常用方法 在数据挖掘中,常用的方法有分类、回归、聚类、关联规则、神经网络、Web数据挖掘等,这些方法分别从不同的角度对数据进行信息挖掘。 1)分类 分类是指通过对已知类别标识数据集(训练集)的学习,得到一个可以将数据映射到给定类别的模型,并将该模型用于预测新数据对象的类别归属。目前,分类技术已被应用到众多领域中,如对客户群的分类、客户满意度的分析等。 常用的分类方法有以下六种。 (1)决策树:一种启发式算法,就是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。 (2)K近邻(K-nearest neighbors,KNN)算法:一种惰性分类方法,就是从训练集中找出k个*接近测试对象的训练对象,再从这k个训练对象中找出居于主导的类别,并将其赋给测试对象。 (3)朴素贝叶斯算法:原理是利用各个类别的先验概率,再利用贝叶斯公式及独立性假设计算出属性的类别概率以及对象的后验概率,即该对象属于某一类别的概率,选择具有*大后验概率的类别作为该对象所属的类别。<
- >
朝闻道
朝闻道
¥15.0¥23.8 - >
中国人在乌苏里边疆区:历史与人类学概述
中国人在乌苏里边疆区:历史与人类学概述
¥20.6¥48.0 - >
月亮与六便士
月亮与六便士
¥15.1¥42.0 - >
月亮虎
月亮虎
¥20.2¥48.0 - >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥17.4¥58.0 - >
巴金-再思录
巴金-再思录
¥14.7¥46.0 - >
名家带你读鲁迅:故事新编
名家带你读鲁迅:故事新编
¥13.0¥26.0 - >
回忆爱玛侬
回忆爱玛侬
¥9.8¥32.8
-
”互联网+“时代计算机算法的应用及其实践研究
¥19.9¥59 -
微服务设计
¥52.8¥69 -
图说深度学习:用可视化方法理解复杂概念
¥109¥188 -
计算机基础
¥17.2¥31 -
改变未来的九大算法
¥50¥68 -
生成式AI入门与AWS实战
¥77.8¥99.8