Page 1 of 1

胶水 - 转变 为了使着陆区的原始数据可

Posted: Sun Jan 26, 2025 6:39 am
by suchona.kani.z
用于进一步的分析步骤,必须对它们进行转换。转换是将提取的数据转换为所需的目标格式或模式,以便为分析、报告或其他应用程序做好准备的步骤。可以执行各种类型的转换,例如清理数据、合并来自不同源的数据、聚合数据、转换数据格式或用附加信息丰富数据。

AWS 云中提供了多种可用于此步骤的服务,其中最全面的服务之一是 AWS Glue。借助 Glue,用户可以从多个来源提取、转换数据并将其加载到多个 AWS 存储和分析目标中,而无需担心基础设施的配置和管理。该服务为常见数据源和目标提供预构建的连接器,以及用于创建和运行 ETL 作业的可视化用户界面。

Glue 提供了多种功能,使数据处理变得更加容易。除此之外,所谓的粘合爬虫可用于在 S3 上创建数据目录,以获得现有数据的概览。对于转换,可以通过 Glue 创建和无服务器执行 Python 和 Pyspark 脚本,并使 美国消费者电子邮件列表 用 Glue 作业进行调度。 Glue Studio 提供了一个图形界面,可让您轻松在 AWS Glue 中创建、运行和监控提取、转换和加载 (ETL) 作业。在这里,可以直观地创建数据转换工作流程,并在 AWS Glue 基于 Apache Spark 的无服务器 ETL 引擎上无缝执行。


对于参考架构,使用 Glue Studio 创建转换作业是有意义的。这些作业可以存储在AWS上并定期运行。这些作业可以按时间或事件控制执行,例如当新数据到达时。监控信息存储在 AWS Glue 中,可用于分析目的。转换后,数据存储在 S3 的第二个(Staging)或第三个(Conspiration)区域中。

Quicksight - 评估
在流数据准备好供 AWS Glue 作业分析并以合适的格式存储在消费区后,现在可以使用分析和仪表板服务“QuickSight”从数据中获取相关见解。 QuickSight 允许用户创建交互式仪表板和报告来分析和呈现来自各种来源的数据,而无需大量编码或复杂查询。该服务提供了广泛的可视化选项,包括图表、表格、地图等,以有吸引力且有意义的方式呈现数据。


由于与 S3、RDS 和 Redshift 等其他 AWS 服务无缝集成,用户可以直接从这些来源导入数据并在 QuickSight 中进行分析。可以使用此服务在仪表板中可视化转换后的流数据。随着底层数据实时变化,仪表板会自动调整,并且可以通过生成的警报告知用户 KPI 的变化或超出情况。

结论
此处针对大数据流用例提供的参考架构说明了 AWS 服务在高效处理大量实时数据并将其用于分析目的方面的广泛可能性,而公司无需担心管理和扩展底层基础设施。可靠性、可扩展性以及与其他 AWS 服务的无缝集成是 AWS Managed Services 的主要优势。然而,仅基于AWS服务构建这样的架构也存在供应商锁定的风险。选择这些服务的公司可能会面临将基础设施迁移到其他云平台的困难,这可能会限制其灵活性并造成对 AWS 的长期依赖。

您想了解更多关于 adesso 世界中令人兴奋的话题吗?那么请看一下我们之前发布的博客文章。