流处理工作负载升级到 CDP 的好处

发布日期:2020-12-30 10:04
1089984-20200707082922133-1774407716
很多企业组织已经在大数据解决方案上进行了投资,现在随着实时流分析的需求日益强烈,希望能在原有投资上包括流处理和流分析。而 Cloudera Data Platform (CDP) 正是顺应这一需求,作为企业数据云的落地方案,可管理和保护端到端数据生命周期(流数据的收集,丰富,处理,分析和预测),以推动可行动的洞察和数据驱动的决策。Cloudera DataFlow 作为 CDP 的一部分,可以在云中操作和管理从边缘数据收集到流分析的流工作负载。

为什么现在要升级到 CDP? 
有预见性的企业组织总是未雨绸缪,积极面对未来可能的挑战。尽管您今天可能使用上一代产品可以应付流处理和流分析功能,但现在应该来准备应对混合云和多云的挑战了。因此,我们概述了考虑从Hortonworks DataFlow(HDF),Hortonworks Data Platform(HDP)或 Cloudera CDH 升级到 CDP 的四大好处。

1.借助CDP获得全面最新的流功能
Cloudera 一直在 Cloudera DataFlow(CDF) 中提供最好的实时流平台。已经有数百名客户在各种关键用例中使用了该平台,但现在我们正在将这些功能扩展到 CDP 中。这样,您现在就可以在 CDP 框架中利用 CDF 的出色功能。
  • Apache NiFi 使数据工程师能够以每秒超过10亿个事件的速度协调流数据的数据收集,分发和转换。
  • Apache Kafka 帮助数据管理员和流应用程序开发人员缓冲大量流数据,以实现高可扩展性。CDP 还提供围绕Kafka的整个工具生态系统,包括使用Streams Messaging Manager(SMM)进行操作和监视,使用Streams Replication Manager(SRM)进行数据复制,使用 Cruise Control 自动重新平衡和修复 Kafka 群集,同时持续投资和支持 Kafka Connect。
  • Apache Flink 使数据分析人员和开发人员能够利用连续 SQL 进行查询以及高级状态管理和窗口功能来构建复杂的实时分析。
2.使用CDP Data Hub将流平台扩展到公共云
CDP 通过 CDP Data Hub 跨私有云和公共云无缝提供相同的数据管理和分析功能。这样就可以在本地和云中使用相同的流数据平台,轻松地采用混合云架构。
  •  CDP 是基础结构无关的数据平台,使企业能够将数据和应用程序从一个环境迁移到另一个环境,而无需重新编写应用程序和对人员重新进行培训。
  • CDP 上的 Data Hub 消除了在云中选择正确的基础架构所带来的管理复杂性。从预定义的集群模板列表中进行选择,轻松地在公共云中创建您的Flow Management(Apache NiFi),Streams Messaging(Apache Kafka)和Streaming Analytics(Apache Flink)集群。
  • CDP Data Hub 使企业能够为用户提供相同的 Cloudera DataFlow 流体验,无论是在内部部署还是在公共云中部署,使管理员可以更轻松地在两种环境中管理流处理和分析。
3.简化和保护管理和治理团队的运营
通过 Cloudera SDX 和共享数据体验的紧密集成,企业可以依靠 CDP 进行数据安全和治理。
  • Cloudera SDX 缓解了数据安全性和治理问题,因为控制策略只需设置一次就可在所有组件中一致地实施,为所有用户提供统一的身份验证过程,并为通过 CDP 流式传输的所有数据提供端到端数据治理。
  • 通过升级到 CDP,可利用 Apache Ranger 和 Apache Atlas 对其数据使用集中式策略来确保安全性和治理。
  • 管理员可以使用 CDP 中的 Cloudera Manager 实例来统一管理多个集群。这消除了以前为每个集群运行专用Apache Ambari 实例而导致的开销。
4.保证未来的数据平台
Cloudera 专为创新而设计的 CDP,提供了更多的分析选项,因此企业可以一站式获取所有信息。
  • Cloudera 投入力量与面向流处理和分析的 Apache Flink 共同创新。最近,Cloudera 收购了 Eventador,以加速 Apache Flink 在用于混合云的 CDP 上的流处理和分析功能。
  • CDP 通过 Cloudera Machine Learning 提供额外的分析功能,以创建用于预测分析的算法,通过 Cloudera Data Warehouse 来提供业务报告和其他数据驱动的分析。
  • CDP 可以作为一个平台在本地和云环境中运行不同的大数据工作负载,从而消除了由其他供应商解决方案过多而经常造成的数据孤岛。
  • 很快,CDP 将使企业能够在容器化环境中运行流工作负载,以有效利用其资源,并使更多的开发人员和数据分析人员能够访问流数据,并最大限度地降低基础架构的成本上升。
分享到:
推荐精彩博文