Page 1 of 1

EMR 集群可以在需要时动态创建

Posted: Sun Mar 02, 2025 4:11 am
by Mostafa044
主节点(或最多三个主节点) 主节点管理集群并运行集群资源管理器。正如 AWS 文档所述,它还“运行 HDFS NameNode 服务、跟踪提交到集群的作业状态并监控实例组的运行状况”。

核心节点 核心节点作为 HDFS 的一部分执行计算任务并协调数据存储。它们由主节点管理。只能有一个核心节点实例组。

任务节点 任务节点是集群计算能力的基础,只执行计算任务,最多可以有48个任务节点实例组,每个任务节点实例组选择统一的实例类型。

最小的 EMR 集群将有一个主节点和两个核心节点。合理的主节点可以是 m5.xlarge 类型的实例。核心节点可以是 r5.xlarge 类型的实例。

与 AWS Lambda 函数相比,这已经不是一个简单的设置,更不用说它的成本了。

我们可以向其中添加一个任务节点实例组……r5.2xlarge 或 r5.4xlarge 实例。这很快就会变得非常昂贵!

这是我们可以从 AWS Lambda “窃取 阿尔巴尼亚 电话数据 ”的地方。我们可以采用这两个原则并将其融入到我们对 AWS EMR 的使用中。

按需 EMR 基础设施集群创建我们可以仅在需要时创建 EMR 集群,并在不再需要时将其关闭。

动态集群创建
如上图所示,。这可以由任何类型的事件或来自任何 AWS 服务的消息触发。

例如,我们要创建一个 EMR 集群。当一些数据到达 AWS S3 时,即当 AWS S3 中创建一个对象时,它应该发生。

另一个用例是创建 EMR 集群作为计划处理的一部分。这可以由 AWS CloudWatch cron 事件触发。

无论我们决定对哪个事件做出反应,我们都需要一个工具来运行我们的创建机制。例如,它可以是 Step 函数、批处理作业或 Lambda 函数。