作为业务分析师或 DBA,您从头到尾了解组织的数据。您已存储客户订单、跟踪问题并记录网站访问者的浏览习惯。但你必须扩大规模,而仓库的限制有时太严格。模式限制以及计算和存储的紧密耦合只是一些潜在的挫败感来源。但数据湖可能在另一个方向上太远了。是的,它为数据科学家和他们的预测模型提供了一个尽情发挥的空间,但代价是决策者失去了有意义的数据。是否存在没有两个或多个解决方案的全部功能(和膨胀的资本支出)的中间立场?
目录:
仓库与湖
进入湖屋
优点
缺点
结论
仓库与湖
如果您的数据位于仓库中,那么它就 电子邮件营销列表 是结构化的,并且是严格的。您的数据已标准化,并且没有字段包含任何过于笨拙的内容。由于这种结构,了解业务的人员可以立即读取数据,并且了解连接信息的应用程序也可以使用数据。
在数据湖中,数据就像实际湖泊中的水一样原始且松散。尽管它可以包含结构化数据,但它更有可能是非结构化或半结构化的。除了失去结构刚性之外,搬到湖边还意味着你也失去了仓库的 ACID 合规性。对于那些可能不知道的人:

A-原子性。事务要么完全成功,要么完全失败(没有部分成功)。
C——一致性。可以期望遵循数据库系统的约束。
我——隔离。事务相互独立,互不影响。
D——耐用性。当事务被提交时,即使随后发生任何系统崩溃,事务也会保持不变。
据称,这只是“数据湖的许多承诺尚未实现,并且在许多情况下导致数据仓库的许多优势丧失”的原因之一。