极客时间 吴磊 Spark 性能调优实战
内容简介
目前,Spark 已然成为分布式数据处理技术的事实标准,也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说,Spark 开发都是一项必备技能;而想要进入大厂,就更得有丰富的 Spark 性能调优经验。
可现实情况是,我们想要快速上手开发应用很容易,把握应用的执行性能却总也找不到头绪,比如:
明明都是内存计算,为什么我用了 RDD/DataFrame Cache,性能反而更差了?
网上吹得神乎其神的调优手段,为啥到了我这就不好使呢?
并行度设置得也不低,为啥我的 CPU 利用率还是上不去?
节点内存几乎全都划给 Spark 用了,为啥我的应用还是 OOM?
为此,我们特意邀请到了吴磊老师,他根据自己多年的数据处理经验,梳理出了一套关于性能调优的方法论,帮助你在有效加速 Spark 作业执行性能的同时,也建立起以性能为导向的开发习惯。
除此之外,他还会手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,让你对性能调优技巧和思路的把控有一个“质的飞跃”。
资源目录
——/计算机教程/02极客时间/100073401-专栏课-吴磊-Spark 性能调优实战(完结)/
01-课前必学 (3讲)
01丨性能调优的必要性:Spark本身就很快,为啥还需要我调优?.m4a 5.86M
01丨性能调优的必要性:Spark本身就很快,为啥还需要我调优?.pdf 2.03M
02丨性能调优的本质:调优的手段五花八门,该从哪里入手?.m4a 6.45M
02丨性能调优的本质:调优的手段五花八门,该从哪里入手?.pdf 2.16M
开篇词丨Spark性能调优,你该掌握这些“套路”.m4a 5.08M
开篇词丨Spark性能调优,你该掌握这些“套路”.pdf 6.10M
02-原理篇 (5讲)
03丨RDD:为什么你必须要理解弹性分布式数据集?.m4a 7.06M
03丨RDD:为什么你必须要理解弹性分布式数据集?.pdf 5.44M
04丨DAG与流水线:到底啥叫“内存计算”?.m4a 7.47M
04丨DAG与流水线:到底啥叫“内存计算”?.pdf 2.23M
05丨调度系统:“数据不动代码动”到底是什么意思?.m4a 11.54M
05丨调度系统:“数据不动代码动”到底是什么意思?.pdf 8.93M
06丨存储系统:空间换时间,还是时间换空间?.m4a 8.84M
06丨存储系统:空间换时间,还是时间换空间?.pdf 2.60M
07丨内存管理基础:Spark如何高效利用有限的内存空间?.m4a 9.25M
07丨内存管理基础:Spark如何高效利用有限的内存空间?.pdf 2.69M
03-通用性能调优篇 (12讲)
08丨应用开发三原则:如何拓展自己的开发边界?.m4a 10.91M
08丨应用开发三原则:如何拓展自己的开发边界?.pdf 1.92M
09丨调优一筹莫展,配置项速查手册让你事半功倍!(上).m4a 11.22M
09丨调优一筹莫展,配置项速查手册让你事半功倍!(上).pdf 1.96M
10丨调优一筹莫展,配置项速查手册让你事半功倍!(下).m4a 9.22M
10丨调优一筹莫展,配置项速查手册让你事半功倍!(下).pdf 5.18M
11丨Shuffle的工作原理:为什么说Shuffle是一时无两的性能杀手?.m4a 9.69M
11丨Shuffle的工作原理:为什么说Shuffle是一时无两的性能杀手?.pdf 23.40M
12丨广播变量(一):克制Shuffle,如何一招制胜!.m4a 7.24M
12丨广播变量(一):克制Shuffle,如何一招制胜!.pdf 4.13M
13丨广播变量(二):有哪些途径让SparkSQL选择BroadcastJoins?.m4a 7.40M
13丨广播变量(二):有哪些途径让SparkSQL选择BroadcastJoins?.pdf 1.50M
14丨CPU视角:如何高效地利用CPU?.m4a 10.31M
14丨CPU视角:如何高效地利用CPU?.pdf 7.18M
15丨内存视角(一):如何最大化内存的使用效率?.m4a 8.48M
15丨内存视角(一):如何最大化内存的使用效率?.pdf 1.48M
16丨内存视角(二):如何有效避免Cache滥用?.m4a 10.61M
16丨内存视角(二):如何有效避免Cache滥用?.pdf 3.83M
17丨内存视角(三):OOM都是谁的锅?怎么破?.m4a 8.14M
17丨内存视角(三):OOM都是谁的锅?怎么破?.pdf 4.50M
18丨磁盘视角:如果内存无限大,磁盘还有用武之地吗?.m4a 7.58M
18丨磁盘视角:如果内存无限大,磁盘还有用武之地吗?.pdf 4.60M
19丨网络视角:如何有效降低网络开销?.m4a 7.23M
19丨网络视角:如何有效降低网络开销?.pdf 2.53M
04-Spark SQL 性能调优篇 (4讲)
20丨RDD和DataFrame:既生瑜、何生亮.m4a 7.22M
20丨RDD和DataFrame:既生瑜、何生亮.pdf 5.25M
21丨Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).m4a 8.52M
21丨Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).pdf 5.10M
22丨Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.m4a 8.07M
22丨Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.pdf 8.33M
23丨钨丝计划:Tungsten给开发者带来了哪些福报?.m4a 10.00M
23丨钨丝计划:Tungsten给开发者带来了哪些福报?.pdf 5.78M
24丨Spark3.m4a 13.35M
24丨Spark3.pdf 5.41M
25丨Spark3.m4a 10.14M
25丨Spark3.pdf 3.51M
26丨JoinHints指南:不同场景下,如何选择Join策略?.m4a 14.02M
26丨JoinHints指南:不同场景下,如何选择Join策略?.pdf 7.06M
27丨大表Join小表:广播变量容不下小表怎么办?.m4a 15.11M
27丨大表Join小表:广播变量容不下小表怎么办?.pdf 3.91M
28丨大表Join大表(一):什么是“分而治之”的调优思路?.m4a 11.33M
28丨大表Join大表(一):什么是“分而治之”的调优思路?.pdf 4.30M
29丨大表Join大表(二):什么是负隅顽抗的调优思路?.m4a 12.61M
29丨大表Join大表(二):什么是负隅顽抗的调优思路?.pdf 6.19M
30丨应用开发:北京市小客车(汽油车)摇号趋势分析.m4a 13.82M
30丨应用开发:北京市小客车(汽油车)摇号趋势分析.pdf 3.92M
31丨性能调优:手把手带你提升应用的执行性能.m4a 19.84M
31丨性能调优:手把手带你提升应用的执行性能.pdf 6.63M
05-结束语(2讲)
结束语丨在时间面前,做一个笃定学习的人.m4a 8.56M
结束语丨在时间面前,做一个笃定学习的人.pdf 3.33M