为什么 spark 2.0 底层通信不用 Akka 而转用 netty ？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代为什么 spark 2.0 底层通信不用 Akka 而转用 netty ？

为什么 spark 2.0 底层通信不用 Akka 而转用 netty ？

2023-04-03

Apache Spark是一个分布式计算框架，设计初衷是为了处理大规模数据集的计算。随着越来越多的企业开始采用Spark进行数据处理和分析，其性能和可靠性变得越来越重要。在这种情况下，底层通信的效率和鲁棒性成为了至关重要的因素。在Spark 2.0中，Spark团队做出了一个重大决策：底层通信从Akka转向Netty。这篇文章将探讨这个决定的背景、原因和影响。

背景

在Spark 1.x版本中，Spark使用Akka作为其底层通信框架。Akka是一种基于Scala语言的消息传递框架，它可以轻松地实现分布式系统中的Actor模型，提供了高度并发的支持。但是，随着Spark的广泛应用，Akka的一些缺点也逐渐显露出来。具体来说，Akka存在两个主要的问题：

Akka本身依赖于Java虚拟机（JVM）级别的线程（thread），在大规模并行化的情况下，线程数量可能会非常庞大，导致调度和管理成本增加，进而降低系统的性能。
Akka的消息传递模型是异步的，这意味着发送方无法知道消息何时被接收和处理。在某些情况下，这可能会导致消息丢失或延迟，进而降低系统的健壮性。

针对这些问题，Spark团队考虑替换Akka，寻找更高效、更稳定的通信框架。

原因

Spark团队在选择新的底层通信框架时，考虑了以下因素：

性能

首先，Spark需要一个高效的通信框架，能够快速地传输大量的数据。在大规模的数据集上，通信的开销往往比计算本身还要高昂，因此通信性能的优化对于Spark的性能至关重要。

Netty是一个高性能的网络通信框架，专门设计用于构建高性能、高可靠的网络应用程序。与Akka相比，Netty采用更高效的I/O模型和线程管理方式，可以更好地利用现代计算机系统的多核心和多线程资源，在高并发的场景下保持更好的性能表现。

健壮性

其次，Spark需要一个健壮、可靠的通信框架，能够保证消息正确性和可靠性。在分布式系统中，由于各种网络异常和故障，消息的传输过程中可能会遇到各种问题。因此，通信框架必须具备足够的健壮性，能够自适应地应对不同的异常情况，并尽可能地保证消息的正确性和可靠性。

Netty提供了诸如心跳检测、连接超时控制、断线重连等多种机制，能够有效地处理各种网络异常和故障，保证通信的可靠性和健壮性。

社区支持

最后，Spark需要一个活跃的社区和生态环境，能够为其提供良好的支持和反馈。通信框架作为Spark的底层组件之一，必须具备足够的社区支持和生

态环境，能够与Spark社区紧密配合，相互促进。在选择新的通信框架时，必须考虑到其生态环境和社区支持情况，以确保其能够长期稳定地运行，并为Spark提供长期的支持。

Netty作为一个成熟的开源项目，拥有庞大的用户和开发者社区，具备广泛的应用场景和丰富的功能库。与Akka相比，Netty的生态环境更加成熟、稳定，能够为Spark提供更好的支持和反馈。

综上所述，Spark团队最终决定将底层通信从Akka转向Netty，以满足Spark日益增长的性能和可靠性需求。

影响

底层通信框架的改变对于Spark整体的影响十分深远，主要体现在以下几个方面：

性能提升

由于Netty采用更高效的I/O模型和线程管理方式，通信性能得到了明显的提升。根据Spark官方测试数据显示，使用Netty作为底层通信框架可以使Spark的性能提升10%-30%，特别是在大规模数据处理场景下表现更加优秀。

可靠性增强

Netty提供了多种机制来保证消息的正确性和可靠性，如心跳检测、连接超时控制、断线重连等，可以有效地避免消息丢失或延迟等问题，提高系统的健壮性和可靠性。

兼容性调整

由于底层通信框架的改变，Spark 2.0需要进行一定的兼容性调整，以适应新的通信框架。具体地，某些Spark API中与Akka相关的部分需要进行修改或替换，以适应Netty的API设计。

生态环境升级

Netty相对于Akka而言，具备更加成熟、稳定的生态环境和社区支持，这也为Spark提供了更好的支持和发展空间。同时，一些与Netty相关的生态组件也开始出现，如基于Netty的分布式RPC框架gRPC等，进一步提升了Spark生态环境的质量和稳定性。

总体来说，底层通信框架的转换为Spark带来了明显的性能和可靠性提升，同时也需要进行一定的兼容性调整和生态环境升级，为Spark未来的发展奠定了更加坚实的基础。

推荐学习书籍
《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据处理分布式系统分布式计算框架虚拟机分布式计算数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇为什么 MySQL 的优化器不能做智能的类型转换?

下一篇为什么训练好的lstm模型每次输出的结果不一样？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

为什么 spark 2.0 底层通信不用 Akka 而转用 netty ？

背景

原因

性能

健壮性

社区支持

影响

性能提升

可靠性增强

兼容性调整

生态环境升级

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载