图片-稻子网
图片-稻子网
图片-稻子网
图片-稻子网

谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和

图片[1]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

【快速翻译】无疑,数据不仅可以帮助企业在决策过程中消除各种猜测,还可以让用户团队使用数据驱动的证据来决定构建哪些产品,添加哪些功能,和需要 哪些计划和目标需要改进。然而,数据感知并不仅仅等同于洞察驱动,这往往需要寻找一种近乎实时的数据分析方法。

如今,作为可扩展的数据存储库,云数据仓库可以让企业通过存储和分析大量结构化和半结构化数据来发现和发现洞察驱动力,从而为公司即将推出的产品提供信息。各种产品、营销策略和工程决策提供了全面的业务信息。

当然,选择云数据仓库提供商通常是一项具有挑战性的任务。用户必须根据自己的需要,综合评估数据仓库的成本、性能、处理实时负载的能力等方面。在这里,我们将分析目前流行的四种云数据仓库:、、、和Azure,综合比较它们的优缺点,并深入讨论您在选择云数据仓库时需要考虑的各种因素。

什么是数据仓库?

数据仓库是一个系统,可将各种来源的数据导入中央存储库,并为后续快速检索做好准备。数据仓库通常包含从交易系统、操作数据库和其他来源中提取的结构化和半结构化数据。数据工程师和分析师可以将这些数据用于商业智能和其他各种目的。

数据仓库可以部署在本地、云端或两者的混合。在本地部署方案中,因为需要有物理服务器,用户往往会批评购买更多的硬件。这将使数据仓库的可扩展性更加昂贵和具有挑战性。相比之下,其云在线存储解决方案成本更低,并具有自动扩展的能力。

何时使用数据仓库

数据仓库可用于多个任务。例如,您可以使用它在统一环境中将历史数据存储为单一事实来源,以便整个组织的用户可以基于存储库执行日常任务。

同时,数据仓库可以一、 分析来自 Web、客户关系管理 (CRM)、移动设备和其他应用程序的数据流。通过将它们转换成可用的格式,用户可以使用各种分析工具,充分利用各种SQL查询服务,提高业务对存储数据的理解和洞察力。例如,通过使用 (GA),公司可以了解客户将如何与其应用程序或网站进行交互。为了突破深度洞察的局限,GA还可以连接已经存储在等平台的数据仓库,将所有数据存储在一个地方,通过分析和比较不同的数据来生成洞察和可视化。变量。数据视图。

仅仅使用数据库还不够吗?

传统观点认为,除非您拥有 TB 或 PB 的复杂数据集,否则您可能只需要使用诸如此类的 OLTP 数据库。但是,云计算使数据仓库对于少量数据具有成本效益。例如,第一个 TB 级查询处理是免费的。此外,无服务器云数据仓库的总拥有成本也将使分析更容易。

图片[2]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

图片[3]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

定价方案

目前流行的云数据仓库

目前,业界有很多新兴的云数据仓库提供商。其中以这四种最为主流,最为可靠。尽管它们在成本或技术细节上有所不同,但它们都具有高可扩展性等共同特点。例如,它们都使用大规模并行处理(MPP)来同时处理多个操作的存储结构。这不仅加速了存储和计算资源的扩展和收缩,而且实现了数据列格式的存储,带来了更好的压缩和查询特性。即使发生中断或故障,它们也能保证可靠的数据复制、备份和快速检索。

此外,与本地部署的数据仓库相比,云解决方案在商业智能方面更具可扩展性,可以加速分析操作,快速上线,并提供数据集成、可观察性和整个生态系统。

数据仓库对比清单

图片[4]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

图片[5]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

图片[6]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

图片[7]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

图片[8]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

它是一个可以运行在 Cloud、Azure 和 AWS 架构上的云数据仓库。由于它不在自己的云基础设施上运行,而是使用主流的公共云服务提供商,因此可以让用户更容易地跨云平台和区域移动数据。

支持几乎无限数量的并发用户,并且可以在几乎零维护和管理的情况下运行。相关的元数据更新和清理、按需扩展、每秒计费以及许多其他琐碎的维护任务都可以自动化。

用户还可以使用 SQL 或其他商业智能 (BI) 和机器学习 (ML) 工具来查询半结构化数据。同时,它还提供对XML、JSON、Avro等文档存储格式的原生支持。如下图所示,其混合架构分为三个不同的层次:云服务层、计算层和存储层。

图片[9]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

三层架构

作为主要客户,日本乐天电子商务集团利用它来扩展其数据资源。该公司曾经有一个名为的现金返还和购物奖励计划。随着CPU和内存投入量的不断增加,其用户需求已经逐渐超过了现有的数据仓库能力。介绍完之后,乐天为每个团队都设立了专属的仓库。由于存储层和计算层可以分离谷歌服务器框架,不同业务部门的工作负载被隔离到不同的仓库,避免相互干扰。最终,乐天不仅降低了总体成本,提高了数据处理效率,而且还获得了对其数据运营的更多可见性。

它提供的云数据仓库服务可以处理从千兆字节到拍字节大小的数据集。在使用过程中,用户需要启动一组节点并对其进行配置,以便上传和分析数据。作为 Web (AWS) 生态系统的一部分,数据仓库服务提供诸如从数据湖导出用户数据以及与其他平台(例如:、、Ads、Slack、Jira 和)集成等服务。此外,仓库服务使用列式存储、数据压缩和区域映射来实现高性能和高效的存储。

图片[10]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

AWS 架构

目前,有数以万计的客户,包括,和。 2020年,全球知名餐饮连锁企业必胜客将利用它整合亚太地区门店产生的数据,使其团队能够快速访问、查询和可视化PB级数据。过去需要数小时才能生成的商业智能报告现在可以在几分钟内完成。

图片[11]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

是它提供的无服务器多云数据仓库。该服务可以快速分析从 TB 级到 PB 级的数据。相比之下,数据复制、计算资源扩展等后端操作可以自动执行,无需预先配置。同时,它可以自动加密各种静态和传输中的数据。

如下图所示,该架构由多个组件组成。其中,Borg为整体计算部分;负责分布式存储;它的执行引擎被调用;这是它的网络。

图片[12]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

架构

由于可以与其他云产品配合使用,其用户包括道琼斯、家得宝、UPS等知名公司。例如,丰田的加拿大公司曾经建立了一个名为Build & Price的比对工具,方便网站访问者定制车辆并获得即时报价。这些数据将被360收集并提取到其中。然后,它的仓储服务将机器学习 (ML) 模型应用于这些数据,并根据购买的可能性为每个访问者分配一个倾向评分。这些预测分数会每八小时刷新一次,并会继续导入到360中。在此基础上,丰田根据倾向分数创建了不同的群体,然后为每个群体投放个性化广告。

天蓝色

Azure 提供的云数据仓库,通过统一的用户界面 (UI) 将数据仓库、数据集成和大数据分析集成在一起。借助无代码环境中构建的ETL/ELT流程,用户不仅可以从近百个本地连接器中提取数据,还可以通过集成的人工智能(AI)和商业智能工具实现Azure机器学习和认知服务和 Power BI。此外,智能工具可以轻松应用于包括365、 365、在内的数据集以及各种SaaS产品。

在 Azure 中,用户可以使用 T-SQL、Scala 和 .NET 等语言以预配置或无服务器的方式按需分析数据资源。

图片[13]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

天蓝色架构

图片[14]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

目前,云数据仓库服务有很多客户。其中,作为零售批发医药巨头,将库存管理数据迁移到Azure,让供应链分析师可以直接在其界面上拖拽调用Power BI工具,查询和创建可视化数据,从而降低整体投资成本。

选择云数据仓库时要考虑的因素的用例

用户独特的操作环境和用例通常是评估数据仓库提供商的关键因素之一。例如,使用 JSON 的公司可能更喜欢它,毕竟它提供了对格式的原生支持。而没有配备专门数据管理员的小型组织可能会避免使用它,毕竟它需要定期监控和配置。在这方面,那些具有即插即用设置的服务可能更适合他们。

支持实时加载

许多公司需要在数据生成后立即对其进行分析。例如,一些公司可能需要实时检测各种欺诈或安全问题,而另一些公司可能需要处理大量的物联网(IoT)数据流进行异常检测。在这方面,IT 团队应该专注于评估云数据仓库如何处理数据流的摄取。例如:提供流式API,用户只需几行代码即可完成调用。 Azure 为实时数据摄取提供内置 Spark 流和其他功能选项。将用作附加组件以实现实时摄入。并且需要使用来实现对数据流的摄取。

安全

虽然每个云数据仓库提供商都非常重视安全性,但他们在技术上是不同的,尤其是加密处理方法。例如,传输中和静止的数据可以默认加密;并且这个功能需要在里面显式启用。

结算

由于提供商以不同的方式对服务收费,因此公司需要估计并了解他们每个月预计在集成、存储和分析上花费的数据量和成本。基于此,IT 团队可以选择具有成本效益的云数据仓库提供商。

例如:计算资源和存储将捆绑在一起,因此用户需要在接受预订的存储和内存容量的前提下选择其简单的定价方案。服务费将根据字节读取、流媒体插入和存储空间收取。但是由于读取的字节数有波动的趋势,采用的计费方式是可以的,但其成本难以预测。 Azure 使用数据仓库单元 (DWU) 的概念为计算资源定价,以便用户可以单独为存储付费。将根据用户使用的虚拟仓库的数量和时长进行计费;在存储方面,根据每月使用的TB数单独计费。

图片[15]-谷歌服务器框架-比较四种典型的云数据仓库:Snowflake、Redshift、BigQuery 和-稻子网

生态系统

生态系统对于应用程序和数据的保留也非常重要。例如,数据存储在云中的公司可以使用或获得额外的性能改进。同时,由于他们共享相同的基础设施谷歌服务器框架,不仅他们的数据不会在公共互联网上移动,而且传输路径也会得到更好的优化。

数据类型

企业经常使用结构化、半结构化和非结构化数据,大多数数据仓库只能支持前两种数据类型。因此,IT 团队应确保所选的云仓库基础架构能够根据实际需要存储和查询特殊类型的数据。

扩大和缩小

既然是云数据仓库,存储和性能的可扩展性需要纳入评估范畴。对此,需要用户手动添加更多节点,以增加存储和计算资源。但具有自动扩缩功能,每个节点可以动态添加或删除。

维护

根据公司的规模和数据的不同需求,数据仓库应该提供自动或手动的方式来实现日常的管理和维护。小团队可以选择或提供自动优化服务。并且云数据仓库提供了更加灵活可控的人工级维护方式,让用户团队可以更好地优化自己的数据资产。

总结

我们从各种参数、技术规格、定价模型等方面为您全面对比了、、、、Azure这四种典型的云数据仓库。希望基于以上考虑,您和您的团队可以根据公司业务的实际需求选择合适的服务商及其产品,让云数据仓库成为您公司的产品、营销、销售等部门,提高数据洞察力,减少盲目猜测,并为获得激烈的竞争优势铺平道路。

原标题:云数据:vs vs Azure vs for Real-Time,作者:Park

【51CTO翻译,转载请注明原文译者及合作伙伴网站出处】

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片