集群监控检测/监控
+ 查看更多
平台监控
+ 查看更多
平台服务运行状况监控。关键组件连接数、请求数监控如hive、hdfs等。
集群服务器资源使用情况监控,内存、cpu等。
设备监控
+ 查看更多
对磁盘、网络IO、内存、cpu以及存储等多方面指标进行实时监控,出现性能瓶颈立即告警。
监控巡检
+ 查看更多
定期对集群的软件、硬件各类指标进行检查并分析,排查安全隐患并输出巡检报告和解决建议。
业务监控
+ 查看更多
针对集群运维应用进行监控,包括调度任务、数据处理流程、数据一致性,数据波动性等进行监控。
实时告警
+ 查看更多
实时告警功能的维护,实现短信告警提醒,监控告警信息,发现集群不足。
数据备份
+ 查看更多
元数据及关键数据定期备份,针对不同级别数据按日、周、月进行备份。
集群故障检测/处理
+ 查看更多
故障处理规范
+ 查看更多
统一规范的处理流程。收集故障信息,包含故障背景、组件信息、服务指标以及日志数据。
分析并记录尝试的操作,输出为故障文档。
遇疑难问题一线无法解决,故障文档提交给二线专家处理。
不停产故障处理
+ 查看更多
开发软件及工具实现集群硬盘和主机故障自动告警功能。
不停掉整个集群情况下更换损坏硬盘,数据不丢失。
主机故障期保证业务正常运行,故障主机修复后自动接入集群,数据不丢失。
主机故障期保证业务正常运行,故障主机修复后自动接入集群,数据不丢失。
故障处理报告
+ 查看更多
针对软件、硬件、网络故障提供诊断分析和解决方案。
严重故障远程无法解决,在收到用户通知后24小时内现场处理。
针对不同故障级别规定解决时限,故障解决后提交故障报告。
BEMORE运维安全管理平台
+ 查看更多
一键部署自动化运维工具,让大数据运维更专业、更简单。
BEMORE运维管理平台是碧茂科技自主研发,针对大数据分布式集群系统设计的自动化管理工具。技术人员可以很容易地部署和集中化操作集群的服务。提供了一个集群范围,实时的主机和服务运行情况的视图;提供了一个单一的中央控制器,对集群配置进行变更;并采用全方位的报告和诊断工具来优化性能和利用率。
BEMORE大数据运维人才体系
+ 查看更多
BEMORE自2015年起面向企业客户,提供Cloudera 原厂标准课程,帮助企业工程师能力提升,推动中国大数据技术演化迭代。
至今累计培训大数据企业上百家、工程师逾千人。代表客户: 中国人民银行、中国移动、上海市公安系统、华为、思科、浪潮、中兴通讯、东方国信、上海大数据联盟等。
所运营的Cloudera中国工程师社群有力地推动了中国大数据技术应用迭代。为运维体系提供了源源不断的动力。