了解顶级数据建模技术

Build better loan database with shared knowledge and strategies.
Post Reply
nusaiba129
Posts: 546
Joined: Tue Dec 24, 2024 3:56 am

了解顶级数据建模技术

Post by nusaiba129 »

数据源定义
根据我们在医疗保健领域使用预测分析时追求的目标,我们确定提取数据的必要来源。例如,如果我们需要预测下一季流感病例的水平,我们可能需要一个包含过去几年人口发病率信息的登记册。其中包含发病率的一般信息,而不仅仅是流感、电子病历,以及医疗设备分析的指标。

数据建模
在此阶段,我们正在最终确定 ETL 流程和预测本身的要求。换句话 马其顿电报号码 说,我们彻底研究所选的来源,选择要使用的列,并仅确定我们需要的数据。在这个特定案例中,我们仅选择有关流感发病率的信息以及患有此病的人的检查结果。

重要的是要理解建模是一个迭代过程,我们可以在任何后续阶段重新审视它。这可能是由于新数据的出现或发现不准确的数据而引发的。



提取、转换、加载
在 ETL 阶段,我们直接从所需来源提取原始健康数据,进行处理和过滤,然后加载到我们选择的存储中,以便进行后续预测。该过程和构建的数据架构的质量将决定系统的预测能力,这就是为什么这一步至关重要。

数据验证
此阶段涉及验证已加载到存储中的数据。我们检查转换后数据的质量、一致性以及它是否与可接受值的区间相对应。

数据丰富
在丰富阶段,我们有机会通过添加额外的列来扩展我们的数据集。这可以通过使用特殊工具(例如 LLM(大型语言模型))来实现。例如,医生在患者就诊后留下笔记。LLM 模型能够分析手写文本并提供 0-10 范围内的患者病情评估,并且该值可用于预测本身。

测试
验证阶段仅涉及检查数据格式,而测试有助于验证整个流程。例如,我们在 ETL 流程中添加了新数据,从而对其进行了轻微的修改。在这种情况下,之前成功运行的测试可能失败了,这表明流程本身出了问题。
Post Reply