-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
深度学习
-
>
Unreal Engine 4蓝图完全学习教程
-
>
深入理解计算机系统-原书第3版
-
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)
数据科学——它的内涵、方法、意义与发展 版权信息
- ISBN:9787030692887
- 条形码:9787030692887 ; 978-7-03-069288-7
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
数据科学——它的内涵、方法、意义与发展 内容简介
全书分为七章。章从人类社会、物理世界、信息空间三元世界理论出发,阐述大数据在信息化社会中的基础地位、作用与价值,揭示大数据价值原理及数据科学的数字经济背景。第二章尝试用数据科学的语言来沟通不同学科,特别地,以统一的术语扼要陈述数学、统计学、计算机科学、人工智能等学科中所使用的数据科学相关概念及内涵。第三章在疏理已有对数据科学内涵解释的基础上,以严格的方式定义什么是数据科学,并通过总结相关学科重大进展来梳理数据科学形成的演进历史。第四章专门讨论数据科学的研究方法论与发展规律。第五章阐述数据科学当前发展阶段所亟待解决的重大科学技术问题。第六章讨论数据科学的学科发展问题,论证了数据科学的主要研究方向、学科属性和知识结构,并提出推动数据科学学科发展战略的若干建议。*后,我们提出数据工程师、数据分析师、数据执行官等数据科学人才培养的建议方案。
数据科学——它的内涵、方法、意义与发展 目录
目录
前言
第1章 数据科学的产生背景 1
1.1 大数据促进了数据科学的形成 1
1.2 数据科学承载着大数据发展的未来 3
第2章 数据科学的相关概念与方法 7
2.1 与数据相关的概念与方法 7
2.1.1 结构化、非结构化与半结构化数据 10
2.1.2 数据价值链 10
2.2 与计算机科学相关的概念与方法 12
2.2.1 计算架构 13
2.2.2 系统软件 15
2.2.3 编程语言与执行环境 15
2.2.4 大数据平台软件 16
2.2.5 数据处理算法 17
2.3 与统计学相关的概念与方法 18
2.3.1 统计描述 18
2.3.2 统计建模 21
2.3.3 统计推断 25
2.4 与机器学习相关的概念与方法 30
2.4.1 机器学习范式 31
2.4.2 机器学习算法 36
2.4.3 近代人工智能方法 49
第3章 数据科学的内涵及演进 57
3.1 数据科学的定义 57
3.2 数据科学与其他学科的关联与区别 60
3.3 促进数据科学形成的重大进展 63
3.3.1 计算机科学相关的重大进展 63
3.3.2 统计学相关的重大进展 66
3.3.3 人工智能相关的重大进展 71
3.4 数据科学概念的形成与演进 77
第4章 数据科学的方法论与发展趋势 80
4.1 数据科学方法论 80
4.2 数据科学方法论与其他学科方法论的比较 84
4.2.1 与数学方法论的关联与区别 84
4.2.2 与统计学方法论的关联与区别 85
4.2.3 与计算机科学方法论的关联与区别 88
4.2.4 与人工智能方法论的关联与区别 89
4.3 数据科学的发展规律与趋势 90
第5章 数据科学的重大科学技术问题 98
5.1 四大科学任务 98
5.1.1 探索数据空间的结构与特性 98
5.1.2 建立大数据统计学 100
5.1.3 革新存储计算技术 103
5.1.4 夯实人工智能基础 108
5.2 十大技术方向 114
5.2.1 物联网技术 114
5.2.2 大数据互操作技术 115
5.2.3 大数据安全技术 117
5.2.4 大数据存储技术 119
5.2.5 分布式协同计算技术 121
5.2.6 新型数据库技术 123
5.2.7 大数据基础算法 127
5.2.8 数据智能技术 128
5.2.9 区块链技术 129
5.2.10 大数据可视化与交互式分析技术 132
第6章 数据科学的学科发展 135
6.1 数据科学的学科方向 135
6.1.1 数据收集与管理 135
6.1.2 数据存储与计算 136
6.1.3 数据分析与解译 137
6.1.4 数据产品及应用 139
6.2 数据科学的学科属性与范畴 140
6.3 数据科学的发展战略 142
第7章 数据科学的人才培养 149
7.1 社会需要什么样的数据科学人才? 149
7.1.1 数据科学人才的市场需求 149
7.1.2 数据科学人才的知识、能力与素质 151
7.1.3 数据科学的人才培养原则 153
7.2 如何培养数据科学人才? 155
7.2.1 数据工程师培养方案 160
7.2.2 数据分析师培养方案 161
7.2.3 数据执行官培养方案 162
参考文献 165
索引 178
数据科学——它的内涵、方法、意义与发展 节选
第1章 数据科学的产生背景 大数据作为一个时代、一项技术、一个挑战、一种文化, 正在走进并深刻影响着我们的生活. 大数据的迅猛发展催生了数据科学这一新学科. 但数据科学到底是什么?它对于科学技术的发展有什么特别意义?它有没有独有的内涵与方法论?它的发展趋势与规律、学科边界与主攻方向乃至人才培养规律又是什么?本章从数据科学的产生背景角度对这些问题予以初步讨论. 1.1 大数据促进了数据科学的形成 数据科学, *本原地说, 是 “让数据变得有用” 的科学理论与技术体系. 数据是现实世界 (物理世界与人类社会活动) 的碎片化记录, 是对现实世界的数字化结果. “让数据变得有用” 主要是指这样一种科学目标: 通过对碎片化反映现实世界的数据之获取、加工、分析和处理能达到对现实世界认知和操控的目的. 从这一认识出发, 几乎所有的科学技术和学科分支都对数据科学的产生、发展起到了推动作用, 但大数据的兴起与发展是促进数据科学形成*直接、*重要、*为核心的驱动力. 可以说, 大数据促进了数据科学的形成. 随着新一代信息技术, 特别是互联网、物联网、5G 通信、云计算、人工智能等新技术的发展, 人类社会进入了大数据时代. 信息技术革命与经济社会活动的交融时时刻刻产生大数据, 它们是社会经济、现实世界、管理决策的片断记录, 是蕴含碎片化信息的原始资料. 大数据正是对这种 “大而复杂” 数据集的统称. 这里的 “大” 不仅仅指数据集所含数据量之大 (即海量之意), 更指这样的数据集已蕴含从量变到质变的跃升. 换言之, 数据量是如此之大而全面, 已使 “只从这些碎片化数据中就能读懂数据背后的故事” 变得可能. “复杂” 除指数据集的海量性之外,通常还指数据的异构性、时变性、分布性、关联性和价值稀疏性等复杂特征. 大数据具有大价值. 大数据提供对现实世界的离散化镜像描述, 形成了与现实世界并行的虚拟世界——数据空间、网络空间, 或称赛博空间 (Cyberspace), 从而为在虚拟世界中认知和操控现实世界带来了可能. 所以, 大数据的*大价值是为数字经济 (包括数字化的实体经济、虚拟经济、网络经济等) 和基于数据的科学发现、社会治理提供了基础. 更详言之, 大数据的大价值主要体现在: 提供社会科学方法论, 实现基于数据的决策, 助推管理科学革命; 形成科学研究的新范式, 支持基于数据的科学发现, 减少对精确模型与假设的依赖, 使得过去不能解决的问题变得可能解决; 形成高新科技的新领域, 推动互联网、物联网、云计算、人工智能、区块链等行业的深化发展, 形成大数据产业; 成为社会进步的新引擎, 深刻改变人类的思维、生产和生活方式, 推动社会变革和进步. 大数据的价值主要通过大数据技术来实现. 大数据技术是*底层的信息技术, 它刻画了新一代信息技术中机器与机器、机器与人、人与人之间的信息交互内容特征, 与网络化技术一样, 它是构成现代信息技术的*基础技术之一. 大数据正在且必将引领未来生活新变化、孕育社会发展新思路、开辟国家治理新途径、重塑国际战略新格局. 实施国家大数据战略, 是对大数据意义、价值与作用的深刻认识与准确把握. 大数据到底能为我们带来什么机遇呢?本书认为,大数据至少能在管理创新、产业发展、科学发现、学科发展等四个方面为我们带来前所未有的机遇. 管理创新机遇. 管理和决策通常都是难以建模的问题, 但业已看到并可进一步预期: 基于大数据和大数据技术, 人们可以使用极为丰富的数据资源来对经济社会发展进行实时分析, 并帮助政府对社会、经济运行中所出现的现实管理问题做出实时决策. 大数据技术可以帮助我们实现梦寐以求的科学决策, 实现科学决策从抽象化到具体化, 从而推动管理理念、方式与方法的革命. 在实践中, 运用大数据对公共政策进行定量的预评估已成为可能. 产业发展机遇. 大数据与大数据技术是解决众多重大现实问题的共性基础,能够为产业发展升级赋能. 特别是大数据技术的底层特性使得它很容易与其他行业技术嫁接, 从而形成 “以数据为资产、以现代信息基础设施为支撑、以数据价值挖掘为创新要素” 的大数据产业. 大数据是人工智能应用的基础, 也可以为 “大众创业、万众创新” 提供重要平台. 应用好大数据这一基础性战略资源, 可以推动传统产业改造升级, 培育经济发展新引擎和国际竞争新优势. 科学发现机遇. 数据收集、处理与分析能力的提升, 必将显著提升人们对客观世界洞察的深度和程序化探究问题的广度. 随着数据积累和计算能力的提升, 直接从大数据中获取知识成为可能. 这种基于大数据分析的探究方式弥补了过去单纯依赖模型和假设解决问题的方法论, 形成了一种新的科学研究范式: 基于数据的科学发现范式. 运用新的范式, 过去不能解决或解决不好的问题现在变得能够解决或解决得更好. 学科发展机遇. 大数据时代, 数理科学与人文社会科学、管理科学等学科的深度交融将彻底打破学科边界、革新学科领域, 统计学面临改革, 计算科学的内涵与外延将发生重大改变. 一种融合统计、计算、信息与数学的数据科学正在形成. “解读大数据是时代任务” 的要求也将深刻改变和影响所有学科. 这一改变势必对大学的学科设置和人才培养模式产生重大影响, 尤其将为大学培养适应国家创新发展急需的人才提供难得机遇. 尽管大数据为国家创新发展带来了大机遇, 并已上升为国家战略, 但要真正实现大数据的大价值, 特别是将大数据转化为现实生产力, 仍面临巨大挑战. 这些挑战主要体现在: 科学基础挑战. 传统用于分析数据的统计学方法以抽样数据为主要对象、以 样本趋于无穷的极限分布为推理基础, 而大数据所处理的对象是自然数据, 既无明确的抽样机制又少有可能存在稳定的极限分布. 这使得传统分析数据的科学基础遭到动摇. 必须夯实大数据的统计学基础. 数学一直是以 “数” 和 “形” 为研究对象的, 以此为基础的数学理论和方法为揭示现实世界数量关系与空间形式提供了元知识, 认知现实大数据呼唤新的数学理论与工具. 核心技术挑战. 大数据的核心技术除了依赖解译数据自身的方法论以外, 采取什么样的计算架构去存储, 采取什么样的计算模式去支持快速查询与处理, 采取什么样的程序语言和算法去完成计算、分析和挖掘, 所有这些都面临技术上的挑战. 特别是, 传统计算的可解性、复杂性、算法设计都是以 “多项式时间” 为标准的, 这样的标准对于大数据计算已失去意义, 必须革新计算模式和计算方法. 法律制度挑战. 推动数据开放共享是保证数据供给、激活数据价值的前提, 但数据开放共享又必须与安全防护、隐私保护取得平衡. 解决数据开放共享不是单纯的技术问题, 应该全面协同技术与管理、技术与法律等. 特别地, 如何从立法与制度层面解决既能充分释放数据活力, 又要确保数据安全; 既能打破 “数据孤岛”,又能防止 “数据垄断、屯集” 等现象, 是极具挑战性的问题. 人才需求挑战. 推动大数据产业发展, 提升国家大数据运用能力, 人才是**位的. 我国大数据人才严重不足, 特别是核心技术人才严重缺乏. “懂数据、会分析、能落地” 的复合型人才缺乏是当下国内外面临的共同挑战. 概括起来说, 信息技术的革命性发展已经将人类社会带入到了大数据时代.拥有大数据是时代特征, 解读大数据是时代任务, 应用大数据是时代机遇 [1]. 在这样的大时代中, 基于数据认知物理世界、基于数据扩展人的认知、基于数据来管理与决策已成为一种基本的认识论与科学方法论. 所有这些呼唤 “让数据变得有用”成为一种科学理论和技术体系. 由此, 数据科学呼之而出便是自然不过的事了. 1.2 数据科学承载着大数据发展的未来 数据科学旨在为数据的高效获取、存储、计算、分析及应用提供科学的理论基础与可靠的技术体系. 作为信息资产, 大数据的价值需要运用全新的处理思维和解译技术来实现, 因而数据科学正是大数据发展所必需的, 正所谓 “数据科学承载着大数据的未来”: 大数据及大数据应用为数据科学提供研究对象和源源不断的问题来源, 而数据科学承载着人们对大数据理论与技术的期盼. 对大数据而言,数据科学意味着新的原理、新的理论、新的技术、新的方法, 是实现大数据价值的新途径与问题解决方案. 数据科学奠定大数据科学基础. 数据科学的一个基本出发点是将数据作为信息空间中的元素来认识, 而人类社会、物理世界与信息空间 (或称数据空间、虚拟空间) 被认为是当今社会构成的三元世界 [2](图 1.1). 这些三元世界彼此间的关联与交互决定了社会发展的技术特征. 例如, 感知人类社会和物理世界的基本方式是数字化 (数据化), 联结人类社会与物理世界的基本方式是网络化, 信息空间作用于物理世界与人类社会的方式是智能化. 数字化、网络化和智能化是新一轮科技革命的突出特征, 其新近发展正是新一代信息技术的核心所在. 图 1.1 三元世界理论与科学技术 数据科学从三元世界理论出发, 依据三元世界之间的交互关系来认识数据具有很强的科学性、完全性与实用性. 在这一认识论指导下, 数据科学有望奠定大数据应用的科学基础. 特别地, 在数据空间的数学结构、分布特征、演化规律 (数据学层面), 在数据生成机制及机理、与现实世界的镜像关系、虚拟操作平台、虚实/人机接口、可视化原理 (三元世界关联层面), 在数据到信息、信息到知识、知识到决策的转化机理与方法 (数据分析与处理层面), 在可学习性与学习理论、数据解译与语义、数据与社会 (数据应用层面) 等基础理论与方法上, 数据科学有望取得重大突破. 数据科学形成大数据分析处理核心技术. 数据科学以大数据为主要研究对象,以数学、统计学、计算机科学、人工智能的多学科融通创新为方法, 以建模、分析、计算、学习、推理、可视化等为基本工具. 这种融通创新的方法论能够非常完美地将多学科方法进行 “杂糅”, 从而形成高效的大数据分析与处理技术. 例如,将统计学的基于模型 (分布假设) 来进行参数估计、统计推断的方法论, 计算机科学的对大规模问题分布并行处理、快速查询与高性能计算、可视化展现的方法论,与人工智能的基于学习来开展预测/预报、自动提取特征、建模复杂数据的方法论进行融通, 有望形成数据科学 “基于数据建模、基于计算分析、基于统计解释、基于领域应用” 的系统大数据分析处理技术. 特别地, 数据科学有望在大数据表示方法、生成机制刻画、数据的结构识别 (异常、异构、类结构等)、数据的相关性分析、因果性判定、分类与回归分析、数据的化简与降维、大数据计算的分布式与并行处理、流式数据处理、分布式数据分析、领域数据 (文本、语音、视频、图像、信号、地理、函数等) 处理、大数据计算基础算法、可视化与人机交互方法等方面定义新的核心技术, 从而支撑大数据高效、准确地分析与应用. 数据科学蕴含大数据价值实现有效途径. 数据的价值实现有其自身规律性.大数据的价值实现服从四个基本的大数据原理 [3]: (1) 量变-质变原理. 大数据由小数据累积形成, 在累积过程前期且数据量不够大时, 这些离散化、碎片化的数据并不能反映其背后的真实故事. 但随着数据量的增加, 特别当其累积量超过某个临界值后, 这些离散的 “碎片” 数据就整体呈现规律性, 就能在一定程度上反映数据背后的真实性. 这一原理被称为是大数据的量变–质变原理. 它说明: 数据量的大是数据具有价值的前提. 从量变到质变的临界值通常也是区分数据 “大” 与 “不大” 的标准. 显然, 大数据的 “大” 是相对的,是与所关注的问题相关的. (2) 关联聚合原理. 数据的积累可能只是局部的、源于某个侧面的, 因而, 单纯数据量的积累并非有助于对事物全局和整体的认识.
- >
名家带你读鲁迅:朝花夕拾
名家带你读鲁迅:朝花夕拾
¥13.3¥21.0 - >
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
¥6.9¥16.0 - >
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
¥9.3¥19.0 - >
大红狗在马戏团-大红狗克里弗-助人
大红狗在马戏团-大红狗克里弗-助人
¥3.6¥10.0 - >
史学评论
史学评论
¥16.2¥42.0 - >
月亮虎
月亮虎
¥14.4¥48.0 - >
中国历史的瞬间
中国历史的瞬间
¥16.7¥38.0 - >
姑妈的宝刀
姑妈的宝刀
¥9.9¥30.0
-
”互联网+“时代计算机算法的应用及其实践研究
¥19.9¥59 -
微服务设计
¥52.8¥69 -
图说深度学习:用可视化方法理解复杂概念
¥109¥188 -
计算机基础
¥17.2¥31 -
改变未来的九大算法
¥50¥68 -
生成式AI入门与AWS实战
¥77.8¥99.8