资讯首图
  • src=http___pic2.zhimg.com_v2-f501dd682af8f3bb50248d112bba61e6_1200x500.jpg&refer=http___pic2.zhimg
    数据仓库、数据湖、流批一体的区别

    数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点与核心问题在哪?如果想稳定落地,系统设计该怎么做?


  • u=1574350876,3040417420&fm=11&gp=0
    有关Apache NiFi的5大常见问题

    希望这些答案有助于您确定如何使用NiFi以及它可以为您的业务需求带来的好处的数据旅程。


  • 微信图片_20210115144946
    Ranger Hive-HDFS ACL 同步

    旧版 CDH 用户使用 Apache Sentry 中的 Hive 策略,该策略自动将 Hive 权限与 HDFS ACL 链接在一起。这对于 Spark 或 Hive 使用的外部表数据特别方便。以前,Ranger 仅支持分别管理 Hive 策略和 HDFS 策略。现在使用 Ranger RMS,您可以使用为 Hive 表定义的策略来授权对 HDFS 目录和文件的访问。RMS 是启用Hive-HDFS ACL 同步的服务。


  • 微信图片_20210115143846
    如何在CDP中通过Livy Thrift Server来提交Spark SQL作业

    为什么CDH甚至最新的CDP中对于Spark SQL CLI或者JDBC/ODBC没有提供基于Spark Thrift Server的支持,参考Fayson之前的文章《0827-7.1.4-如何在CDP中使用Spark SQL CLI》,在CDP中,Cloudera给出了新的解决方案Livy Thrift Server,它是对Spark Thrift Server的增强,支持JDBC/Thrift Server,安全与容错。通过Hive Warehouse Connector(HWC),支持Spark SQL访问Hive3的内表,同时然Spark SQL支持基于Ranger的细粒度授权。本文主要介绍如何在CDP中通过Livy Thrift Server来提交Spark SQL作业。


  • 1610527826647
    交互式分析领域,为何 ClickHouse 能够杀出重围?

    在百花齐放的交互式分析领域,ClickHouse 绝对是后起之秀,它虽然年轻,却有非常大的发展空间。本文将分享 PB 级分析型数据库 ClickHouse 的应用场景、整体架构、众多核心特性等,帮助理解 ClickHouse 如何实现极致性能的存储引擎。


  • 1610527216335
    深度对比delta、iceberg和hudi三大开源数据湖方案

    目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点,加上项目各成员积极地社区建设,包括技术细节分享、国内社区推广等等,也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些,简单说社区关注度暂时比不上delta,功能也不如Hudi丰富,但却是一个野心勃勃的项目,因为它具有高度抽象和非常优雅的设计,为成为一个通用的数据湖方案奠定了良好基础。


  • u=334025388,2480280645&fm=26&gp=0
    工业数据治理:全解时序数据处理工具

    时序数据处理应用于物联网、车联网、工业互联网领域的过程数据采集、过程控制,并与过程管理建立一个数据链路,属于工业数据治理的新兴领域。从工具维度看,时序数据处理工具与传统时序数据库的差异很大。后者局限于车间级的可编程逻辑控制器,而非企业级。企业级的时序数据处理,首先是基于数据架构和数据模型的。数据架构决定哪些时序数据需要采集,如何处理,用于哪些业务场景,用于时序数据采集的规划与设计开发;数据模型用于解析时序数据的数据结构。


  • src=http___img01.store.sogou.com_net_a_04_link_appid=100520022&w=800&url=http___mmbiz.qpic.cn_mmbiz_png_wX9uJgPoFMOibpt1z4lZfLpRHcwtg9Oc2vvybgFmQujPqHUL08cnKERgIpRibqrNqQUhqCwzu3RmibgwJPdwX8CqQ_0_wx_fmt=&refer=http_
    数据湖是谁?那数据仓库又算什么?

    数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。
    那么到底是什么样的需求和挑战驱动了技术的变革,从而导致了新技术的产生呢?


  • src=http___bigdatanomics.org_images_BDMOTphoto_datalake-bdmot-design.png&refer=http___bigdatanomics
    Data Lakehouse (湖仓一体) 到底是什么

    数据湖(Data Lake),湖仓一体(Data Lakehouse)俨然已经成为了大数据领域最为火热的流行词,在接受这些流行词洗礼的时候,身为技术人员我们往往会发出这样的疑问,这是一种新的技术吗,还是仅仅只是概念上的翻新(新瓶装旧酒)呢?它到底解决了什么问题,拥有什么样新的特性呢?它的现状是什么,还存在什么问题呢?带着这些问题,今天就从笔者的理解,为大家揭开 Data Lakehouse 的神秘面纱,来探一探其技术的本质到底是什么?


  • u=2422547589,794547126&fm=26&gp=0
    常见的大数据平台架构设计思路

    近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据,大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一系列问题,本文介绍了一些数据平台设计思路来帮助业务减少数据开发中的痛点和难点。


  • src=http___bpic.588ku.com_element_origin_min_pic_00_90_47_9256efcbf458c23.jpg&refer=http___bpic.588ku
    Twitter 如何将 Kafka 当做一个存储系统

    当开发人员通过我们提供的 API 使用公开的 Twitter 数据时,他们需要可靠性、高效的性能以及稳定性。因此,在前一段时间,我们为 Account Activity API 启动了 Account Activity Replay API ,让开发人员将稳定性融入到他们的系统中。Account Activity Replay API 是一个数据恢复工具,它允许开发人员检索5天前的事件。并且提供了恢复由于各种原因而没有交付的事件,包括在实时交付期间服务器的宕机。


  • 微信图片_20210108134632
    Ranger Hive-HDFS ACL 同步

    Ranger资源映射服务器(Resource Mapping Server:RMS)可以将访问策略从Hive自动转换为HDFS。


  • 如何通过Cloudera Manager页面自定义图表

    在Cloudera Manager中我么可以看到很多图表,CDH的组件如HDFS、HBase等都有大量的描述CPU、磁盘、作业队列等的图表,这些图表可以通过tsquery语句进行构建,tsquery语言是指从Cloudera Manager时间序列数据存储中检索时间序列数据的语句。


  • 微信图片_20210108145704
    Cloudera携手NVIDIA为企业数据云提速

    Cloudera 近日宣布与NVIDIA 开展全新合作,借助 NVIDIA GPU 计算功能,在公共云和私有云帮助 Cloudera 客户加速数据工程、分析、机器学习和深度学习性能。这一激动人心的合作以共同的愿景为基础,旨在让每家企业实现数据驱动型决策。


  • src=http___p3.ifengimg.com_ifengimcp_pic_20161219_22f324832cee7f439ccb_size138_w604_h380.jpg&refer=http___p3.ifengimg
    机器学习的四大基本平台要素

    要在整个企业中部署和扩展 AI/ML,从数据到模型再到取得成果都需要施行复杂且迭代性的工作流程。想要做到这些却绝非易事,实际上,目前仅有 35% 的企业机构表示已将分析模型部署到生产中。此外,随着 AI/ML 项目和模型数量的成倍增加,生产环境机器学习系统可能会变得缓慢、繁琐且充满了 “错误的开始”,使之变得更加困难并且成本更高。


  • 微信图片_20210108143145
    基于人工智能的Apache Kafka自动化运维(一)

    由LinkedIn主推,Cloudera和RedHat及其他社区贡献者协助出品的Cruise Control提供了基于人工智能的自动化Apache KAFKA集群运维能力。用户可以通过Cruise Control来极大的缓解KAFKA日常运维的工作,并使得企业的KAFKA集群更稳定,更高效,更智能。


  • Hue执行多条语句问题

    Hue是一个大数据交互式分析平台,目前在大数据领域中应用还是比较广泛的。它是Cloudera贡献出来的,已经发展得比较成熟了,支持绝大多数常用的大数据组件。虽然Zeppelin发展迅速,对Spark的支持更好,还支持FlinkSQL,并且在CDH7.1.1之后,Zeppelin也被集成到了Cloudera Runtime中。但是短时间内,zepeelin还是无法取代Hue。


  • 手动搭建Hadoop分布式集群

    相比Cloudera Manager的安装方式,手动搭建Hadoop分布式集群能让我们了解Hadoop的详细配置,有利于我们学习HDFS和YARN的工作原理,初学者可以尝试这种方式。