书馨卡帮你省薪 2024个人购书报告 2024中图网年度报告
欢迎光临中图网 请 | 注册
> >>
大数据SQL优化 原理与实践

大数据SQL优化 原理与实践

出版社:机械工业出版社出版时间:2025-01-01
开本: 16开 页数: 384
中 图 价:¥79.2(8.0折) 定价  ¥99.0 登录后可看到会员价
暂时缺货 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

大数据SQL优化 原理与实践 版权信息

  • ISBN:9787111767039
  • 条形码:9787111767039 ; 978-7-111-76703-9
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>>

大数据SQL优化 原理与实践 本书特色

大数据优化经历了从SQL优化到各种优化理论、技术、产品的过程,目前发展到再次回归SQL优化的阶段。SQL是大数据优化的根本,也是必然归宿。但是很多大数据相关从业者已经迷失在了繁多的优化理论和技术中,他们在面的众多平台、插件等各类产品时,会通过各种不同的技术进行优化工作,但是*终得到的效果并不能尽如人意。本书两位作者作为长期活跃在大厂研发一线的工程师,不仅对大数据优化有深入理解,还一直抱有一颗工匠之心,长期研究大数据优化的底层逻辑,*终总结得到一条可以从底层实现优化的方法,这套方法论具有一定的普适性。本书就是对这套方法论的完整呈现和深度分享。

大数据SQL优化 原理与实践 内容简介

这是一本站在一线开发人员的视角,从SQL的本质出发,采用理论与实践相结合、案例与分析相结合、作者经验与一线需求相结合的方式,深度解读大数据SQL优化核心技术和解决方案的工具书。本书主要面向大数据初中级技术人员,期望帮大家深度理解大数据SQL优化原理,掌握SQL优化的落地实践方法,从而真正“玩转”大数据SQL优化技术,根据实际问题和需求设计出有针对性的提升SQL性能的解决方案。 本书共分为4篇,包括10章。 认知篇(第1章)主要面向初学者阐述为什么大数据计算或存储引擎发展至今*终选择SQL作为统一查询语言的原因及利弊,大数据SQL从业者目前面临的主要问题,以及调优的两个根本目标。 原理篇(第2章)以深入浅出的方式解读SQL的本质。为了降低读者理解的门槛,本篇还以Hive、Spark和Flink这三个主流的引擎为例,从源码的角度探索SQL执行背后的秘密。 实践篇(第3~9章)首先深入解读引擎查询优化器的两大优化策略——基于规则的优化和基于代价的优化的实现原理、示例和局限性,然后以Hive、Spark、Flink等主流引擎为蓝本,探索SQL优化(包括结构与参数调优、子查询优化、连接优化、聚合优化)的解决思路和方法论,并给出作者多年总结的一些“坑”。 案例篇(第10章)以实践篇的各种真实需求调优历程为基础,以点带面,以小明大,分享电商、金融、银行这三个典型行业的典型公司大数据SQL调优案例,还给出了内容平台数仓、查询高可用、实时性数仓等业务场景的解决方案。

大数据SQL优化 原理与实践 目录

目 录 Contents前言认知篇第1章 概述21.1 大数据的发展历程21.2 大数据为什么选用SQL41.2.1 标准化语言51.2.2 声明式编程61.2.3 借鉴关系数据库成熟理论81.3 大数据SQL的弊端91.3.1 易学难精91.3.2 表达能力有限101.3.3 与关系型数据库求同存异121.4 为什么要调优13目 录 Contents前言认知篇第1章 概述21.1 大数据的发展历程21.2 大数据为什么选用SQL41.2.1 标准化语言51.2.2 声明式编程61.2.3 借鉴关系数据库成熟理论81.3 大数据SQL的弊端91.3.1 易学难精91.3.2 表达能力有限101.3.3 与关系型数据库求同存异121.4 为什么要调优131.4.1 降本提效131.4.2 知其然并知其所以然15原理篇第2章 SQL的本质182.1 执行过程提炼182.2 抽象语法树202.3 SQL抽象语法树222.4 Hive执行原理242.4.1 词法解析252.4.2 语义分析262.4.3 逻辑优化282.4.4 物理优化292.5 Spark执行原理302.5.1 词法解析322.5.2 语义分析342.5.3 逻辑优化362.5.4 物理优化372.6 Flink执行原理392.6.1 词法解析402.6.2 语义分析422.6.3 逻辑优化432.6.4 物理优化45实践篇第3章 任劳任怨的引擎503.1 基于规则优化概述513.1.1 谓词下推523.1.2 常量堆叠543.1.3 常量传递553.1.4 等式传递553.1.5 布尔表达式简化563.1.6 BETWEEN-AND重写573.1.7 NOT取反重写583.1.8 简化IF/CASE WHEN条件   表达式593.1.9 优化LIKE正则表达式593.1.10 简化CAST表达式603.1.11 简化UPPER/LOWER表    达式603.1.12 优化二元表达式613.1.13 简化复杂类型数据结构的    操作符613.1.14 合并投影623.1.15 列裁剪623.1.16 优化冗余别名623.1.17 替换NULL表达式633.1.18 CONCAT合并633.1.19 等式变换643.1.20 不等式变换643.2 基于代价优化的简析643.3 两种优化的局限性70第4章 调优解决方案734.1 理解业务,选择需求734.2 利用执行计划764.3 利用统计信息794.4 利用日志824.5 利用分析工具874.5.1 Dr.Elephant874.5.2 火焰图934.5.3 Prometheus944.6 等价重写思想984.6.1 关系代数994.6.2 等价变换规则100第5章 结构与参数调优1035.1 参数调优1035.1.1 并行执行1035.1.2 预聚合1055.1.3 扩大并行度1085.1.4 内存分配1135.1.5 数据重用1175.1.6 Kafka限流1195.2 利用Hint1255.3 合理的表设计1265.3.1 小文件合并1265.3.2 分区表1305.3.3 分桶表1325.3.4 物化视图1335.4.存储调整1405.4.1 存储格式1425.4.2 压缩类型147第6章 子查询优化案例解析1506.1 案例分享1516.1.1 子查询改写为JOIN1516.1.2 避免全表扫描1546.1.3 避免无效过滤条件1576.1.4 子查询改写为窗口函数1586.1.5 复杂UDF缓存1606.1.6 子查询改写为半连接1646.2 深度剖析1676.2.1 让人又爱又恨的子查询1676.2.2 子查询消除算法1686.2.3 子查询合并算法177第7章 连接优化案例解析1817.1 案例分享1817.1.1 改写为UNION1817.1.2 强制广播1857.1.3 使用Bucket Join1907.1.4 数据打散1927.1.5 谨慎对待关联键的数据类型1967.1.6 倾斜数据分离1997.1.7 慎用外连接2027.1.8 流Join的实现2057.1.9 手动过滤下推2097.1.10 先聚合,再关联2157.1.11 一对一再膨胀策略2167.2 深度剖析2187.2.1 连接实现2187.2.2 外连接消除算法2207.2.3 连接排序算法222第8章 聚合优化案例解析2358.1 分而治之2358.2 两阶段聚合2378.3 多维聚合转UNION2418.4 异常值过滤2448.5 去重转为求和/计数2468.6 使用其他结构去重 2498.7 善用标签2528.8 避免使用FINAL2558.9 转为二进制处理2588.10 行列互置的处理办法2638.11 炸裂函数中的谓词下推2698.12 数据膨胀导致的任务异常2738.13 用MAX替换排序278第9章 SQL优化的“*后一公里”2819.1 谨慎操作NULL值2819.2 决定性能的关键—Shuffle2849.3 数据倾斜的危害2949.4 切莫盲目升级版本2979.5 引擎自优化的利弊308案例篇第10章 实战案例分享31410.1 某电商业务营销活动实时指标   优化方案31410.2 某金融业务风控行为实时指标   优化方案32710.3 某银行监管项目实时指标优化   方案33110.4 某内容平台数仓建设历程33810.4.1 建模指导思想33910.4.2 数仓架构设计34010.4.3 数仓建设理论3431
展开全部

大数据SQL优化 原理与实践 作者简介

陈鹤大数据专家和架构师,现任东南亚某电商公司大数据专家,曾就职于VIVO等大厂。长期从事大数据架构、实时数据仓库、流批一体与数据应用平台架构研发工作。在Hadoop、Spark、Flink等方面积累了丰富的经验。曾先后主导或参与了多个电商、金融领域的数据体系建设、疑难项目改造、数据平台架构设计与实现项目。数据之力技术丛书编委会委员,PowerData社区核心成员,拥有丰富的大数据相关写作和授课经验。杨国栋数据之力技术丛书编委会主任,杭州电子科技大学硕士,前腾讯软件工程师,《Apache Pulsar原理解析与应用实践》作者。一直就职于头部互联网公司,从事大数据平台与基础架构研发相关工作,在大数据引擎与消息队列引擎方面,一线工作经验特别丰富。热衷知识分享,长期活跃于各个社区。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服