-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
数据挖掘 概念与技术(原书第2版) 版权信息
- ISBN:7111205383
- 条形码:9787111205388 ; 978-7-111-20538-8
- 装帧:暂无
- 册数:暂无
- 重量:暂无
- 所属分类:>>
数据挖掘 概念与技术(原书第2版) 本书特色
本书第2版在十分丰富和全面的第1版基础上进行了更新和改进,并增添了新的重要课题,例如挖掘流数据、挖掘社会网络和挖掘空间、多媒体和其他复杂数据。本书将是一本适用于数据挖掘和知识发现课程的优秀教材。. ——Gregory Piatetsky-Shapiro, KDnuggets的总裁 科学的飞速发展使产生和收集数据的能力快速增长。大多数商业、科学和政府事务的日益计算机化,数码相机、发布工具和条码的广泛应用都产生着大量的数据。在数据收集方面,扫描的文本和图像平台、卫星遥感系统和互联网已经使我们生活在海量的数据之中。这种爆炸性的数据增长促使我们比以往更迫切地需要新技术和自动化工具,以帮助我们将这些数据转换为有用的信息和知识。.. 本书第1版曾被KDnuggets的读者评选为*受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注其可行性、有用性、有效性和可伸缩性问题。第1版出版之后,数据挖掘领域的研究又取得了很大的进展,开发出了新的数据挖掘方法、系统和应用。第2版在这方面进行了充实,增加了多个章节讲述*新的数据挖掘方法,以便能够挖掘出复杂类型的数据,包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。 本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材,同时也适宜作为数据挖掘研究人员和相关专业人士的参考书。 本书特点: ● 全面实用地论述了从实际业务数据中抽取出读者需要的概念和技术。 ● 结合读者的反馈,反映数据挖掘领域的技术变化以及统计和机器学习方面的进展。 ● 引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。...
数据挖掘 概念与技术(原书第2版) 内容简介
本书全面地讲述数据挖掘领域的重要知识和技术创新。在第1版内容相当全面的基础上,第2版展示了该领域的*新研究成果,例如挖掘流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。
本书第1版曾是受读者欢迎的数据挖掘专著,是一本可读性极佳的教材。第2版充实了数据挖掘领域研究新进展的题材,增加了讲述*新的数据挖掘方法的若干章节。本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材。
数据挖掘 概念与技术(原书第2版) 目录
出版者的话. |
专家指导委员会 |
中文版序 |
译者序 |
序 |
前言 |
第1章引言1 |
1.1什么激发了数据挖掘,为什么它是重要的1 |
1.2什么是数据挖掘3 |
1.3对何种数据进行数据挖掘6 |
1.3.1关系数据库6 |
1.3.2数据仓库8 |
1.3.3事务数据库10 |
1.3.4高级数据和信息系统与高级应用10 |
1.4数据挖掘功能—可以挖掘什么类型的模式14 |
1.4.1概念/类描述:特征化和区分14 |
1.4.2挖掘频繁模式.关联和相关15 |
1.4.3分类和预测15 |
1.4.4聚类分析17 |
1.4.5离群点分析17 |
1.4.6演变分析18 |
1.5所有模式都是有趣的吗18 |
1.6数据挖掘系统的分类19 |
1.7数据挖掘任务原语20 |
1.8数据挖掘系统与数据库系统或数据仓库系统的集成22 |
1.9数据挖掘的主要问题23 |
1.10小结25 |
习题26 |
文献注释27 |
第2章数据预处理30 |
2.1为什么要预处理数据30 |
2.2描述性数据汇总32 |
2.2.1度量数据的中心趋势32 |
2.2.2度量数据的离散程度34 |
2.2.3基本描述数据汇总的图形显示36 |
2.3数据清理39 |
2.3.1缺失值39 |
2.3.2噪声数据40 |
2.3.3数据清理作为一个过程41 |
2.4数据集成和变换43 |
2.4.1数据集成43 |
2.4.2数据变换45 |
2.5数据归约47 |
2.5.1数据立方体聚集47 |
2.5.2属性子集选择48 |
2.5.3维度归约49 |
2.5.4数值归约51 |
2.6数据离散化和概念分层产生55 |
2.6.1数值数据的离散化和概念分层产生56 |
2.6.2分类数据的概念分层产生60 |
2.7小结62 |
习题62 |
文献注释65 |
第3章数据仓库与OLAP技术概述67 |
3.1什么是数据仓库67 |
3.1.1操作数据库系统与数据仓库的区别68 |
3.1.2为什么需要分离的数据仓库69 |
3.2多维数据模型70 |
3.2.1由表和电子数据表到数据立方体70 |
3.2.2星形.雪花形和事实星座形模式:多维数据库模式72 |
3.2.3定义星形.雪花形和事实星座形模式的例子75 |
3.2.4度量的分类和计算76 |
3.2.5概念分层77 |
3.2.6多维数据模型中的OLAP操作79 |
3.2.7查询多维数据库的星形网查询模型81 |
3.3数据仓库的系统结构82 |
3.3.1数据仓库的设计和构造步骤82 |
3.3.2三层数据仓库的系统结构83 |
3.3.3数据仓库后端工具和实用程序85 |
3.3.4元数据储存库86 |
3.3.5OLAP服务器类型:ROLAP. |
MOLAP与HOLAP86 |
3.4数据仓库实现88 |
3.4.1数据立方体的有效计算88 |
3.4.2索引OLAP数据90 |
3.4.3OLAP查询的有效处理92 |
3.5从数据仓库到数据挖掘93 |
3.5.1数据仓库的使用93 |
3.5.2由联机分析处理到联机分析挖掘95 |
3.6小结96 |
习题97 |
文献注释99 |
第4章数据立方体计算与数据泛化101 |
4.1数据立方体计算的有效方法101 |
4.1.1不同类型立方体物化的路线图101 |
4.1.2完全立方体计算的多路数组聚集105 |
4.1.3BUC:从顶点方体向下计算冰山立方体108 |
4.1.4Star-Cubing:使用动态星形树结构计算冰山立方体111 |
4.1.5为快速高维OLAP预计算壳片段116 |
4.1.6计算具有复杂冰山条件的立方体121 |
4.2数据立方体和OLAP技术的进一步发展122 |
4.2.1数据立方体的发现驱动的探查122 |
4.2.2在多粒度的复杂聚集:多特征立方体124 |
4.2.3数据立方体中被约束的梯度分析126 |
4.3面向属性的归纳—另一种数据泛化和概念描述方法128 |
4.3.1数据特征化的面向属性的归纳129 |
4.3.2面向属性归纳的有效实现132 |
4.3.3导出泛化的表示133 |
4.3.4挖掘类比较:区分不同的类136 |
4.3.5类描述:特征化和比较的表示139 |
4.4小结140 |
习题141 |
文献注释144 |
第5章挖掘频繁模式.关联和相关146 |
5.1基本概念和路线图146 |
5.1.1购物篮分析:引发性例子146 |
5.1.2频繁项集.闭项集和关联规则147 |
5.1.3频繁模式挖掘:路线图149 |
5.2有效的和可伸缩的频繁项集挖掘方法150 |
5.2.1Apriori算法:使用候选产生发现频繁项集151 |
5.2.2由频繁项集产生关联规则154 |
5.2.3提高Apriori算法的效率155 |
5.2.4不候选产生挖掘频繁项集156 |
5.2.5使用垂直数据格式挖掘频繁项集159 |
5.2.6挖掘闭频繁项集160 |
5.3挖掘各种类型的关联规则162 |
5.3.1挖掘多层关联规则162 |
5.3.2从关系数据库和数据仓库挖掘多维关联规则164 |
5.4由关联挖掘到相关分析168 |
5.4.1强关联规则不一定有趣:一个例子168 |
5.4.2从关联分析到相关分析168 |
5.5基于约束的关联挖掘172 |
5.5.1关联规则的元规则制导挖掘172 |
5.5.2约束推进:规则约束制导的挖掘173 |
5.6小结176 |
习题177 |
文献注释181 |
第6章分类和预测184 |
6.1什么是分类,什么是预测..184 |
6.2关于分类和预测的问题186 |
6.2.1为分类和预测准备数据186 |
6.2.2比较分类和预测方法187 |
6.3用决策树归纳分类188 |
6.3.1决策树归纳189 |
6.3.2属性选择度量191 |
6.3.3树剪枝196 |
6.3.4可伸缩性与决策树归纳198 |
6.4贝叶斯分类200 |
6.4.1贝叶斯定理201 |
6.4.2朴素贝叶斯分类201 |
6.4.3贝叶斯信念网络204 |
6.4.4训练贝叶斯信念网络205 |
6.5基于规则的分类206 |
6.5.1使用IF-THEN规则分类206 |
6.5.2从决策树提取规则208 |
6.5.3使用顺序覆盖算法的规则归纳209 |
6.6用后向传播分类212 |
6.6.1多层前馈神经网络213 |
6.6.2定义网络拓扑213 |
6.6.3后向传播214 |
6.6.4黑盒内部:后向传播和可解释性218 |
6.7支持向量机219 |
6.7.1数据线性可分的情况219 |
6.7.2数据非线性可分的情况222 |
6.8关联分类:基于关联规则分析的分类224 |
6.9惰性学习法(或从近邻学习)226 |
6.9.1k*近邻分类法226 |
6.9.2基于案例的推理228 |
6.10其他分类方法228 |
6.10.1遗传算法228 |
6.10.2粗糙集方法229 |
6.10.3模糊集方法229 |
6.11预测231 |
6.11.1线性回归231 |
6.11.2非线性回归233 |
6.11.3其他基于回归的方法234 |
6.12准确率和误差的度量234 |
6.12.1分类器准确率度量234 |
6.12.2预测器误差度量236 |
6.13评估分类器或预测器的准确率237 |
6.13.1保持方法和随机子抽样237 |
6.13.2交叉确认238 |
6.13.3自助法238 |
6.14系综方法—提高准确率238 |
6.14.1装袋239 |
6.14.2提升240 |
6.15模型选择241 |
6.15.1估计置信区间242 |
6.15.2ROC曲线243 |
6.16小结244 |
习题245 |
文献注释247 |
第7章聚类分析251 |
7.1什么是聚类分析251 |
7.2聚类分析中的数据类型253 |
7.2.1区间标度变量253 |
7.2.2二元变量255 |
7.2.3分类.序数和比例标度变量256 |
7.2.4混合类型的变量259 |
7.2.5向量对象260 |
7.3主要聚类方法的分类261 |
7.4划分方法263 |
7.4.1典型的划分方法:k均值和k中心点263 |
7.4.2大型数据库的划分方法:从k中心点到CLARANS266 |
7.5层次方法267 |
7.5.1凝聚和分裂层次聚类267 |
7.5.2BIRCH:利用层次方法的平衡迭代归约和聚类269 |
7.5.3ROCK:分类属性的层次聚类算法271 |
7.5.4Chameleon:利用动态建模的层次聚类算法272 |
7.6基于密度的方法273 |
7.6.1DBSCAN:一种基于高密度连通区域的基于密度的聚类方法273 |
7.6.2OPTICS:通过点排序识别聚类结构275 |
7.6.3DENCLUE:基于密度分布函数的聚类276 |
7.7基于网格的方法278 |
7.7.1STING:统计信息网格278 |
7.7.2WaveCluster:利用小波变换聚类279 |
7.8基于模型的聚类方法280 |
7.8.1期望*大化方法280 |
7.8.2概念聚类281 |
7.8.3神经网络方法283 |
7.9聚类高维数据284 |
7.9.1CLIQUE:维增长子空间聚类方法285 |
7.9.2PROCLUS:维归约子空间聚类方法287 |
7.9.3基于频繁模式的聚类方法287 |
7.10基于约束的聚类分析290 |
7.10.1含有障碍物的对象聚类291 |
7.10.2用户约束的聚类分析293 |
7.10.3半监督聚类分析293 |
7.11离群点分析295 |
7.11.1基于统计分布的离群点检测295 |
7.11.2基于距离的离群点检测296 |
7.11.3基于密度的局部离群点检测298 |
7.11.4基于偏差的离群点检测299 |
7.12小结300 |
习题301 |
文献注释303 |
第8章挖掘流.时间序列和序列数据306 |
8.1挖掘数据流306 |
8.1.1流数据处理方法和流数据系统307 |
8.1.2流OLAP和流数据立方体310 |
8.1.3数据流中的频繁模式挖掘314 |
8.1.4动态数据流的分类315 |
8.1.5聚类演变数据流318 |
8.2时间序列数据挖掘320 |
8.2.1趋势分析320 |
8.2.2时间序列分析中的相似性搜索323 |
8.3挖掘事务数据库中的序列模式325 |
8.3.1序列模式挖掘:概念和原语326 |
8.3.2挖掘序列模式的可伸缩方法327 |
8.3.3基于约束的序列模式挖掘333 |
8.3.4时间相关序列数据的周期性分析335 |
8.4挖掘生物学数据中的序列模式336 |
8.4.1生物学序列比对336 |
8.4.2生物学序列分析的隐马尔可夫模型339 |
8.5小结345 |
习题346 |
文献注释348 |
第9章图挖掘.社会网络分析和多关系数据挖掘351 |
9.1图挖掘351 |
9.1.1挖掘频繁子图的方法351 |
9.1.2挖掘变体和约束子结构的模式357 |
9.1.3应用:图索引.相似性搜索.分类和聚类361 |
9.2社会网络分析363 |
9.2.1什么是社会网络363 |
9.2.2社会网络的特征365 |
9.2.3链接挖掘:任务和挑战367 |
9.2.4挖掘社会网络369 |
9.3多关系数据挖掘373 |
9.3.1什么是多关系数据挖掘373 |
9.3.2多关系分类的ILP方法375 |
9.3.3元组ID传播376 |
9.3.4利用元组ID传播进行多关系分类377 |
9.3.5用户指导的多关系聚类379 |
9.4小结382 |
习题383 |
文献注释384 |
第10章挖掘对象.空间.多媒体.文本和Web数据386 |
10.1复杂数据对象的多维分析和描述性挖掘386 |
10.1.1结构化数据的泛化386 |
10.1.2空间和多媒体数据泛化中的聚集和近似387 |
10.1.3对象标识和类/子类层次的泛化388 |
10.1.4类复合层次泛化388 |
10.1.5对象立方体的构造与挖掘389 |
10.1.6用分治法对规划数据库进行基于泛化的挖掘389 |
10.2空间数据挖掘391 |
10.2.1空间数据立方体构造和空间OLAP392 |
10.2.2挖掘空间关联和并置模式395 |
10.2.3空间聚类方法396 |
10.2.4空间分类和空间趋势分析396 |
10.2.5挖掘光栅数据库396 |
10.3多媒体数据挖掘396 |
10.3.1多媒体数据的相似性搜索396 |
10.3.2多媒体数据的多维分析397 |
10.3.3多媒体数据的分类和预测分析399 |
10.3.4挖掘多媒体数据中的关联399 |
10.3.5音频和视频数据挖掘400 |
10.4文本挖掘401 |
10.4.1文本数据分析和信息检索401 |
10.4.2文本的维度归约405 |
10.4.3文本挖掘方法407 |
10.5挖掘万维网410 |
10.5.1挖掘Web页面布局结构411 |
10.5.2挖掘Web链接结构识别权威Web页面413 |
10.5.3挖掘Web上的多媒体数据416 |
10.5.4Web文档的自动分类418 |
10.5.5Web使用挖掘418 |
10.6小结419 |
习题420 |
文献注释421 |
第11章数据挖掘的应用和发展趋势424 |
11.1数据挖掘的应用424 |
11.1.1金融数据分析的数据挖掘424 |
11.1.2零售业的数据挖掘425 |
11.1.3电信业的数据挖掘426 |
11.1.4生物学数据分析的数据挖掘427 |
11.1.5其他科技应用的数据挖掘428 |
11.1.6入侵检测的数据挖掘429 |
11.2数据挖掘系统产品和研究原型430 |
11.2.1如何选择数据挖掘系统431 |
11.2.2商用数据挖掘系统的实例432 |
11.3数据挖掘的其他主题433 |
11.3.1数据挖掘的理论基础434 |
11.3.2统计学数据挖掘434 |
11.3.3可视数据和音频数据挖掘435 |
11.3.4数据挖掘和协同过滤440 |
11.4数据挖掘的社会影响440 |
11.4.1无处不在和无形的数据挖掘441 |
11.4.2数据挖掘.隐私和数据安全443 |
11.5数据挖掘的发展趋势445 |
11.6小结446 |
习题447 |
文献注释449 |
附录微软用于数据挖掘的OLEDB简介452 |
A.1模型创建453 |
A.2模型训练454 |
A.3模型预测和浏览456 |
索引...460 |
- >
名家带你读鲁迅:故事新编
名家带你读鲁迅:故事新编
¥12.6¥26.0 - >
我从未如此眷恋人间
我从未如此眷恋人间
¥17.5¥49.8 - >
罗庸西南联大授课录
罗庸西南联大授课录
¥16.6¥32.0 - >
小考拉的故事-套装共3册
小考拉的故事-套装共3册
¥36.7¥68.0 - >
大红狗在马戏团-大红狗克里弗-助人
大红狗在马戏团-大红狗克里弗-助人
¥3.6¥10.0 - >
人文阅读与收藏·良友文学丛书:一天的工作
人文阅读与收藏·良友文学丛书:一天的工作
¥16.5¥45.8 - >
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
¥6.9¥16.0 - >
推拿
推拿
¥12.2¥32.0
-
一本书读懂大数据
¥13.5¥36 -
4.23文创礼盒A款--“作家言我精神状态”
¥42.3¥206 -
4.23文创礼盒B款--“作家言我精神状态”
¥42.3¥206 -
一句顶一万句 (印签版)
¥40.4¥68 -
百年书评史散论
¥14.9¥38 -
1980年代:小说六记
¥52.8¥69