书馨卡帮你省薪
欢迎光临中图网 请 | 注册
>
30秒探索数据大爆炸

30秒探索数据大爆炸

出版社:华中科技大学出版社出版时间:2023-02-01
开本: 16开 页数: 160
本类榜单:科普读物销量榜
中 图 价:¥58.1(6.6折) 定价  ¥88.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

30秒探索数据大爆炸 版权信息

  • ISBN:9787568086103
  • 条形码:9787568086103 ; 978-7-5680-8610-3
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:

30秒探索数据大爆炸 本书特色

★大数据,不仅改变了人们生活的方方面面,更被上升为国家战略,让孩子了解何为数据科学,如何利用数据科学已经刻不容缓,*前沿的科学普及不可不知! ★本书主编为数据科学的资深观察家和实践者,在本书中分享了数据收集、分析的实用方法及其局限性,着重介绍了数据大爆炸对科学、社会、商业、娱乐、未来的影响,*前线的一手分析,不可不看! ★本书以大众耳熟能详的知名人物为线索,增加阅读趣味。内有数据科学领域知名人物的传记和重要贡献,了解科学家的奇闻轶事,让阅读更有趣,让记忆更深刻。 ★本书体例新颖,层次清晰,让阅读更轻松。每个主题,都分为3秒击破概念,30秒探简明解析,3分钟认知拓展,可充分利用碎片化时间一览概念,也可沉浸式阅读深入研究探索。 ★图书为全彩印刷,图文结合,文字简略凝练,信息量大,图片炫酷、有创意,激发孩子好奇心和求知欲,让孩子主动思考,培养孩子的科学思维! 在这个节奏越来越快的世界里,科学家是*受瞩目的明星,期待遇见热爱科学的你!

30秒探索数据大爆炸 内容简介

数据科学是一门全新的学科,涵盖了从发现罪犯到预测流行病的信息时代。但这不仅仅是我们的电脑、智能手机和信用卡收集的大量信息。本书为全彩印刷,图文并茂地探讨了数据科学如何在科学、社会、商业、娱乐和我们的世界的未来各个方面影响我们。在本书中,数据科学领域的专家解释了该领域的50个发人深省的主题,每个主题,无论多复杂,作者都会用一幅图、两页纸、三四百字,在30秒内向读者进行讲解。我们将一起踏上科学探秘之旅,解开隐藏在科学术语背后的神秘科学。本书是由数据科学领域的权威科学家精心编撰而成,涵盖了驱动算法的基本统计原理,数据如何影响我们的科学、社会、商业、娱乐、道德困境及其对未来更美好世界的承诺。长期以来,我们一直都是用我们的本能、思想、观点和经验来驱动我们的决定。然而,现在我们正进入数据主义时代,让数据驱动我们做出每一个决定。从气候变化到难民危机,再到医疗保健,数据是一种驱动力,不仅在这些包罗万象的问题上,也在我们的日常生活中。比如,亚马逊等网上书店可以告诉你你想读什么,而不是去书店;交友软件也会根据收集到的无数数据,告诉你谁适合你。

30秒探索数据大爆炸 目录

6 前言
8 引言

12 基础知识
14 术语
16 数据收集
18 数据可视化如何实现
20 从数据中学习
22 工具
24 回归
26 弗朗西斯·高尔顿
28 聚类
30 统计学与建模
32 机器学习
34 神经网络与深度学习

36 不确定性
38 术语
40 抽样
42 相关性
44 趋均数回归
46 置信区间
48 抽样偏倚
50 算法偏差
52 乔治·博克斯
54 统计显著性
56 过拟合

58 科学
60 术语
62 欧洲核子研究中心与希格斯玻色子
64 天体物理学
66 CRISPR基因编辑工具与数据
68 百万基因组计划
70 格特鲁德·考克斯
72 气候变化
74 治愈癌症
76 流行病学

78 社会
80 术语
82 监控
84 安全
86 隐私
88 弗洛伦斯·南丁格尔
90 投票科学
92 健康
94 IBM沃森与谷歌阿尔法围棋

96 商业
98 术语
100 工业4.0
102 能源供应与分配
104 物流
106 赫尔曼·何乐礼
108 营销
110 金融建模
112 新产品开发

114 娱乐
116 术语
118 购物
120 交友
122 音乐
124 埃达·洛夫莱斯
126 体育运动
128 社交媒体
130 游戏
132 博彩

134 未来
136 术语
138 个性化医疗
140 心理健康
142 智能家居
144 约翰·W. 图基
146 社会信用评分
148 人工智能
150 监管
152 伦理

154 附录
156 参考资源
158 编者简介
160 致谢
展开全部

30秒探索数据大爆炸 节选

数据收集 现代计算技术的发展使我们一时间获取了大量信息,因此,数据科学这一学科应运而生。从前,收集和分析数据仅限于手工操作,而现代技术的进步意味着我们生活中方方面面的信息都会被收集起来:从购买日用品到使用智能手表记录每一次运动。现在收集到的海量数据将使我们的生活发生翻天覆地的变化。许多公司如雨后春笋般出现,它们收集的数据之多超乎想象。仅以脸书(Facebook)和谷歌为例,它们收集了大量的个人信息,也就是说,它们对我们知之甚多,甚至掌握着某些连我们*亲密的朋友和家人都不得而知的信息。每一次,只要我们点击谷歌上的链接或是在脸书上给某个帖子点赞,相关数据就会被收集起来,而后这些公司对我们的了解便增加一分。在将这些信息与它们收集到的与我们有相同特点的人的信息结合后,它们就可以有针对性地向我们投放广告,并预测我们无论如何都料想不到的事情,比如我们的政治忠诚度。 数据可视化如何实现 “90%的政客都会撒谎”,这句话从何而来?更重要的是,这是事实吗?在日常生活中,我们可以看到形形色色的数据概括:饼状图会告诉我们美国人*喜欢的巧克力棒是什么,新闻报道会告知我们一生中罹患癌症的概率有多大。所有这些概括都来自或基于收集到的信息,但它们似乎总是相互矛盾。为什么会这样呢?因为数据并不简单,概括也不简单。我可以这样概括,你可以那样概括,但孰对孰错呢?这就是问题的症结所在:我们很可能会被自己所看到的数据概括“牵着鼻子走”。即便数据概括是正确的,也可能无法合理地、精准地反映其所代表的数据。例如,你知道在20岁及以上的女性中,青少年怀孕现象将会大幅减少吗?从技术层面上来说,确实如此,但就事实而言,这一数据概括毫无用处。所以,今后再看到数据概括时,你不妨思考一下它是否被曲解,然后再相应地考虑其结果。 从数据中学习 收集数据确实大有裨益,但是在我们收集到数据之后,除了进行概括,还可以做些什么呢?有了模型,我们就能采用比以往更复杂、更有效的方式从数据中获取信息。有了模型,数据科学家就能行之有效地用一条或多条数据预测他们感兴趣的结果(这便又增添了一条数据)。例如,年龄和性别数据可用于预测一个人在未来5年内是否会患上关节炎。在掌握一些人是否患有关节炎的数据后,我们可以用他们的年龄与性别信息建模,这一模型可以帮助我们预测其他人是否会患关节炎。除了预测新数据以外,数据还可以用于确定某一特定结果的原因。这一过程被称作“因果推断”,它通常用于研究疾病,比如,通过分析DNA(脱氧核糖核酸)来确定病因。然而,尽管在上述两例中,预测关节炎病例都是*终目的,但它们所代表的建模问题却有着细微的不同,甚至有着截然不同的建模过程。根据与特定项目相关的数据与目标选择*佳模型是所有数据科学家**的主要技能之一。 机器学习 机器学习的理念是让计算机在无须人工辅助的前提下,学会以一种自动化的方式不断学习与提升。算法可以在系统中运行并自动做出决策,这通常有助于加快决策过程,减少人为错误。在这个系统中,机器学习算法利用接收到的数据预测未来,帮助系统在不同的选项之间运行、选择。随后,算法根据从接收到的信息中学到的内容进行自我更新,确保未来继续做出*佳决策。声田(Spotify)是机器学习在日常生活中得到运用的一个实例。这款音乐软件拥有数百万用户,能够根据用户听过的歌曲得知他们喜欢哪种类型的音乐。声田对刚开始使用这款软件的新用户知之甚少,因此只能随机推荐歌曲。但用户一旦开始听歌,算法就会不断了解他们的音乐偏好以及他们与其他用户的偏好之间的联系。用户听过的歌曲越多,算法就越准确,为他们推荐的歌曲也会更加精准。 神经网络与深度学习 神经网络是*常见的机器学习方法之一,*初它是科学家从人脑中得到启发提出的。与人脑一样,神经网络由相互连接的(人造)神经元组成,这些神经元能够解释图像以及其他类型的数据。神经网络在日常生活中起到了很大作用,能够识别智能手机照片中的人脸,还能读取信封上的地址,确保它们能够送达正确的地址。深度学习是一组基于神经网络展开的机器学习方法的统称,其中有着大量的相互连接的人造神经元层。深度学习的用途之一是分析和回应信息,这些信息可能是以文本的形式(例如智能客服机器人)出现的,也可能是以语音的形式(例如亚马逊语音助手Alexa和苹果智能语音助手Siri)出现的。然而,深度学习*大的用途是图像处理。深度学习可用于分析无人驾驶汽车捕捉的图像,解释结果,并建议汽车根据需要调整行驶路线。目前,深度学习也开始被应用于医学领域,用以分析利用磁共振成像(MRI)或X射线等技术形成的图像,成了识别肿瘤病变等的有效方法。 抽样 “垃圾进,垃圾出”:数据科学家都知道,数据质量决定结果质量,因此大多数数据科学家都明白要密切关注测量值的收集。当数据分析师掌握了整个总体的数据(比如奈飞会记录其订阅用户的观影习惯)时,他们只需通过计算数字便可得出结论。但掌握整个总体的数据其实是不切实际的。在医疗诈骗犯罪调查中,“完整的总体”是数以万亿计的医疗索赔记录,但律师可能会让数据科学家有策略地选择记录中的一个子集,并从中得出结论。其他时候,如在政治民调中,只有样本可供使用。如果样本是随机选择而得,此时就需要统计学理论来告诉我们,从样本到对总体的概括有多大的可信度。数据科学家越来越依赖所谓的“非概率抽样”,即非随机地选择样本。因此,使用推特(Twitter)数据来跟踪某位候选人或某个品牌的人气并非选择了一个具有代表性的随机样本,但这一方法仍有其意义。 算法偏差 人类在执行同一项任务时会有不同的表现,算法正是通过处理这些不同的例子来学习如何做出决策的。量刑算法的训练基于成千上万条法官所做出的历史性判决与有关罪犯及其罪行的信息。有些法官对某类人的判决更为严厉,如果这些法官被当作这些训练数据的来源,那么他们的偏见就会被复制到模型之中。2018年,麻省理工学院媒体实验室(MIT Media Lab)称,美国微软公司及美国IBM公司(International Business Machines Corporation,国际商业机器公司)所开发的面部识别系统在识别女性面孔时效果欠佳,在识别肤色较深的女性时频频出错。由于英美警察已经开始测试用于预防犯罪的自动面部识别系统,此类系统若是不够精确,总是发出虚假警报,公民自由将大大受限。2018年,亚马逊停用了简历自动筛选工具,因为该工具持有性别偏见。其系统的运行以此前应聘成功者的数据为基础,而由于技术行业从业人员中男女比例失衡,这些应聘成功者大多为男性。因此,求职申请中若是含有更可能出现在女性简历中的字眼(如“女足”),应聘者就会处于劣势。通过学习,该算法将男性简历等同于成功,而将女性简历等同于失败。 气候变化 要对气候趋势进行预测,我们首先要收集和处理大量数据(如历年全球平均气温)。刻画全球平均气温变化情况的函数是多变量函数。大气中的温室气体以高于平均水平的速度增加,捕获高于平均水平的热量,这会阻碍热量的及时发散。海平面上升、沥青铺设面积增加、冰量减少等因素也会降低散热速度。在理想状态下,如果吸热速度等于散热速度,那么全球平均气温将保持不变,而散热延迟破坏了这种平衡。尽管不平衡的状态只是暂时存在,但在这段时间内,热量会持续存留。此外,平衡恢复之后,温度并非回到之前的水平,而是进入新常态。我们可能会进入不同的新常态:有些会令人轻微不适,有些则可致命。为了知道我们可能会进入哪种新常态,我们必须收集足量的数据来避免会误导预测的小幅波动。研究人员正在收集全球气温、海冰厚度等数据,这些数据共同体现了温室气体水平的危险极限。 治愈癌症 基础科学发现有助于解释癌症机制,催生了靶向治疗和对患者预后的研究,让我们更加了解成功的疗法,使我们离治愈癌症又近了一步。数据科学让我们能够检验介入治疗的价值。具体来说,统计思维在随机试验中发挥了基础作用。1954年,美国国家癌症研究所(National Cancer Institute)首次采用随机试验测试治疗急性白血病的方法。早在40年前,癌症研究就已经开始依赖现今数据科学中的内容了,如研究设计、数据分析和数据库管理等。如今,分子生物学技术为每位患者都提供了成千上万种检测手段,能够检测癌细胞中的突变、染色体结构变化、基因表达异常、表观遗传变异和免疫应答等。这一技术的主要目的是利用这些信息提高诊断水平,定制治疗方法。分子生物学技术带来了庞大而复杂的数据集,丰富的统计知识和高超的计算技巧有助于高效处理这些数据集,并避免偶然事件的干扰。 流行病学 流行病学是收集数据,研究疾病的人群分布、模式和成因等的科学。这门科学融合了多个学科(如统计学、社会科学、生物学和工程学)来进行相关运算,以防控传染病和非传染病在人群中的传播。流行病学影响公共卫生,并为当前的预防性手段(如疫苗接种)、非预防性手段(如糖尿病筛查)以及今后会采用的一些方法(如基于微生物组的诊断方式)提供依据。流行病学证据推动政府制定健康政策和指导方针(如儿童疫苗接种),以保护公民健康。该领域因遏制流行病和传染病暴发而闻名。1854年,约翰·斯诺博士首次定义了流行病学的概念,当时,他查明了伦敦的霍乱病例起源于一处被污染的水源。此外,2013年,西非出现了由埃博拉病毒引起的死亡病例,随着疾病不断蔓延,人们开始调查埃博拉病毒如何以及为何传播得如此迅速。这项调查为该地区的卫生防疫计划提供了信息支撑,控制了病毒的传播。

30秒探索数据大爆炸 作者简介

利伯蒂·维特尔特(Liberty Vittert),现为圣路易斯华盛顿大学奥林商学院数据科学实践教授。她经常为众多新闻机构撰稿,并且在福克斯商业频道(Fox Business)开设了一个名为“统计学家生活指南”(A Statistician’s Guide to Life)的每周专栏。作为英国皇家统计学会大使、英国广播公司杰出女性专家和国际统计学会当选会士,利伯蒂不遗余力地向公众传播统计学与统计数据。同时,她也是《哈佛数据科学评论》副主编,以及联合国难民署美国委员会成员。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服