Apr28, 2026

数据湖

数据湖是一个大规模的存储库，用于以原始、未处理的形式存储各种数据。

定义

数据湖是一个集中式存储系统，可在不需要预先转换或强制模式的情况下存储大量结构化、半结构化和非结构化数据。它以原始格式保留数据，从而支持灵活访问和处理，用于分析、机器学习和实时工作负载。通过采用读取时模式的方法，仅在数据被消费时应用结构，而不是在数据摄取时，从而支持敏捷性和可扩展性。数据湖通常基于分布式文件系统或云对象存储实现，以高效处理大量数据。这种架构使其非常适合现代数据平台，其中必须收集和探索各种数据类型。

优点

以原始形式存储任何类型的数据，最大化灵活性。
通过保留原始数据的完整性，支持高级分析和机器学习。
在无需预先设计模式的情况下，支持从各种来源快速摄取数据。
通过分布式或云存储解决方案实现高度可扩展性。
与传统结构化系统相比，大规模存储更具成本效益。

缺点

如果缺乏适当的治理，可能会变得杂乱无章，演变为“数据沼泽”。
对于特定工作负载，查询性能可能比优化的结构化系统慢。
需要强大的元数据和目录管理以实现高效发现。
在大规模下，安全性和访问控制可能较为复杂。
可能需要专门的工具和技能来处理各种数据类型。

使用场景

作为机器学习模型训练的基础，使用原始数据集。
收集和存储点击流、日志和事件数据以用于分析流水线。
支持大数据架构中的实时和批处理。
集中来自不同来源的企业数据，用于跨领域分析。
支持结构化和非结构化格式之间的探索性数据分析。