admin

您真的需要数据湖吗?

admin 运维技术 2022-11-20 470浏览 0

让我帮你决定。

长期以来,数据湖在业界引起了极大的轰动,通常被视为解决所有数据问题的一站式解决方案。 围绕数据湖的嗡嗡声已将组织误导为设计那些对业务没有真正价值的组织。 此外,这些年来有关数据沼泽的恐怖故事只鼓励人们怀疑。 如果您正在讨论是否需要数据湖来加强数据策略,那么本文将为您提供一些帮助,以便您进行电话咨询。

您真的需要数据湖吗?

您是否厌倦了从没有逻辑集中存储区域的异构系统中提取数据?

对于大多数处理各种数据源的组织来说,这是一个普遍的问题。 缺乏用于分析工作负载的集中式数据存储,迫使数据使用者创建本地化的系统,通常只限于少数几个用户来进行报告和分析。 几种非标准化流程最终导致数据孤岛的创建,这些孤岛可能会成为数据访问,一致性和准确性的主要问题。

数据湖架构可以通过分布式存储集中数据,从而提供可扩展,快速,安全和经济的解决方案。 加上强大的数据治理,最终可以解决数据孤岛中的问题并使组织内的数据民主化。 这些解决方案可以在内部,云甚至混合基础架构中部署。

您是否因为存储旧数据很昂贵而仅仅删除旧数据而感到内疚?

数据库管理系统需要随着数据增长而具有更多的计算能力,这导致许多设计决策(例如分区和向外扩展)进一步增加了支出。 当成本持续上升时,IT可以将数据压缩为备份的数据库备份到更便宜的存储或平面文件中,或者在大多数情况下最终将它们删除。 归档数据或删除它们以降低费用可能会损害数据获利的机会。

可以设计一个数据湖体系结构来实施数据保留策略,从而减轻控制数据增长的压力。 借助廉价的分层存储,您可以轻松地计划周密的保留策略并存储大量数据,而不会浪费预算,并大大减少了编排的开销。

您是否经常使用变化的数据结构来调整数据库?

如果您正在使用关系数据库并且源数据的架构不断变化,那么您要么忽略正在进行的更改并可能丢失有价值的信息,要么正在花费资源来将数据库调整为适用于源架构。 无论哪种方式,您都不会赢。

数据湖允许存储原始数据(结构化/非结构化/半结构化),而无需运行任何前期ETL流程。 您不会丢失正在进行的数据更改,还可以节省调整数据库表结构,ETL管道等的费用。您(或使用者)可以在读取数据时定义结构,而不是在存储数据时定义数据的结构 (检查读取模式)可以使授权使用者以他们喜欢的任何方式读取数据。 双赢。

您是否有不同的数据消费者集合需要相同的数据集的不同形式?

并非组织中的每个人都希望以一种特定的形状或切割形式使用数据。 一些消费者需要与他们的部门需求保持一致的关系形式的干净,结构化和必要的数据,一些消费者需要原始数据来运行机器学习实验,一些消费者将属于受限类别并使用屏蔽数据。 在传统平台上解决这些要求变得麻烦(且昂贵)。

一旦将原始数据存储在数据湖中,就可以在数据中创建逻辑视图,以便用户以所需的形式使用数据。 您甚至可以创建流程以将结构化形式的数据存储到数据仓库中,并应用匿名规则将数据推送给外部使用者。

您了解数据湖的概念吗?

关于数据湖有很多神话,在做出决定之前了解一些事实很重要。

  • Data Lake是一个概念,而不是产品。 Data Lake不是Amazon S3或Azure Data Lake Storage或Hadoop,而是一种架构,指导如何在对象存储(如Amazon S3,ADLS,HDFS)或多个存储组件中存储和组织数据。
  • Data Lake不能替代数据仓库。 这是关于数据湖的最大困惑。 如此多,当您使用Google术语"数据湖"时,您会发现大多数人将数据湖与数据仓库进行比较。 数据湖允许数据以其原始格式驻留,而数据仓库是您存储经过处理,清理,结构化和感兴趣的数据的地方。 数据湖和数据仓库是相辅相成的想法,不能相互替代。
  • 数据湖需要治理。 您可以不经任何处理就将原始格式的数据提取到数据湖中,但是一旦将数据存储在数据湖中,就需要进行适当的分类,管理和控制,以确保只有授权的使用者才能跟踪,识别和访问数据。
  • 数据湖不是一种通用架构。 数据湖的设计因每个组织和用例而异。 一个组织可以决定建立多个数据湖,或者一个数据湖可以为多个组织服务。 无论哪种情况,都是根据业务策略,基础架构,技术选择和人员技能来做出特定的设计决策。

最后…

数据湖确实具有巨大的优势,对于许多热衷于制定数据战略的组织而言,它可能是一个有吸引力的提议。 您必须仔细检查它是否可以解决您的业务问题,是否与组织中的其他技术平台很好地集成以及是否真正为业务创造了价值。 做出良好的设计决策并确保在整个组织中建立数据治理规则以使用数据湖至关重要。 最重要的是,只有那些人才能成功实现这一目标,您将必须支持和发展正确的技能,并鼓励采用数据驱动的文化。

继续浏览有关 数据库运维 的文章
发表评论