集群监控检测/监控
平台监控
平台服务运行状况监控。关键组件连接数、请求数监控如hive、hdfs等。
集群服务器资源使用情况监控,内存、cpu等。
设备监控
对磁盘、网络IO、内存、cpu以及存储等多方面指标进行实时监控,出现性能瓶颈立即告警。
监控巡检
定期对集群的软件、硬件各类指标进行检查并分析,排查安全隐患并输出巡检报告和解决建议。

业务监控
针对集群运维应用进行监控,包括调度任务、数据处理流程、数据一致性,数据波动性等进行监控。
实时告警
实时告警功能的维护,实现短信告警提醒,监控告警信息,发现集群不足。
数据备份
元数据及关键数据定期备份,针对不同级别数据按日、周、月进行备份。 

大数据集群紧急救援热线

400-601-6012

集群故障检测/处理
故障处理规范
统一规范的处理流程。收集故障信息,包含故障背景、组件信息、服务指标以及日志数据。
分析并记录尝试的操作,输出为故障文档。
遇疑难问题一线无法解决,故障文档提交给二线专家处理。
不停产故障处理
开发软件及工具实现集群硬盘和主机故障自动告警功能。 
不停掉整个集群情况下更换损坏硬盘,数据不丢失。 
主机故障期保证业务正常运行,故障主机修复后自动接入集群,数据不丢失。
故障处理报告
针对软件、硬件、网络故障提供诊断分析和解决方案。
严重故障远程无法解决,在收到用户通知后24小时内现场处理。
针对不同故障级别规定解决时限,故障解决后提交故障报告。

BEMORE运维安全管理平台

一键部署自动化运维工具,让大数据运维更专业、更简单。

        BEMORE运维管理平台是碧茂科技自主研发,针对大数据分布式集群系统设计的自动化管理工具。技术人员可以很容易地部署和集中化操作集群的服务。提供了一个集群范围,实时的主机和服务运行情况的视图;提供了一个单一的中央控制器,对集群配置进行变更;并采用全方位的报告和诊断工具来优化性能和利用率。

驻场运维
BEMORE一线驻场工程师
• 5*8现场值守,7*24电话值守
• 故障告警,15分钟内响应
• 系统日常巡检
• 问题数据采集
• 平台应用故障响应
二线支持
BEMORE二线专家架构师
• 分析问题数据
• 远程技术支持
• 疑难问题现场解决
• 每季度安全漏洞分析,平台优化
• 提供针对性技术培训

原厂支持
CLOUDERA原厂架构师
• 24小时内故障处理建议
• 无法处理提供原厂故障报告
• 平台代码层问题解决
• 平台Bug问题解决
• 产品知识库技术支持
BEMORE大数据运维人才体系
BEMORE自2015年起面向企业客户,提供Cloudera 原厂标准课程,帮助企业工程师能力提升,推动中国大数据技术演化迭代。 
至今累计培训大数据企业上百家、工程师逾千人。代表客户: 中国人民银行、中国移动、上海市公安系统、华为、思科、浪潮、中兴通讯、东方国信、上海大数据联盟等。 
所运营的Cloudera中国工程师社群有力地推动了中国大数据技术应用迭代。为运维体系提供了源源不断的动力。

华为培训1
华为培训2
大数据联盟培训1
大数据联盟培训2
part-00521-2066

集群基础运维服务

      在整个数据驱动的转型之旅中,充分发挥数据的价值至关重要。

BEMORE提供原厂/副厂联动技术支持服务,帮助您将Cloudera部署快速、轻松地以更低的成本和最佳的性能从测试转入生产。


集群健康检测/监控

一、平台监控

1、Hadoop服务的HDFS文件系统的NameNode数、DataNode数、运行状态、异常情况等监控;JOB个数及运行状态监控。

2、数据库服务监控flare、hive、mysql等数据库可用性、数据库连接数、数据库访问查询效率、数据库占用CPU情况、数据库占用内存情况等监控分析。

3、对集群服务器的可用性、CPU利用率、内存利用率、服务连接访问情况、及各服务特有的服务指标进行监控。


二、设备监控

对主机、存储、网络等进行磁盘I/O速率、磁盘使用率、服务器网络速率、服务器带宽使用率、CPU利用率、内存利用率、存储吞吐量、存储利用率、网络吞吐量、网络流量、IO速率、带宽利用率等指标的监控,实时告警设备的可用性。


三、业务监控

针对集群运维应用进行监控,包括调度任务、数据处理流程、数据一致性,数据波动性等进行监控。


四、监控管理

提供监控管理工具,实现对主机集群的通用管理。

1、集群主机统一管理:为运维人员提供一个集中的操作维护平台,实现服务更新、启停集中维护操作功能。

2、分布式集群节点管理:支持集群中在线添加、移除或者迁移计算节点、存储节点。

3、分布式集群服务管理:支持在集群节点上安装、移除服务,包括DFS分布式文件服务、map\reduce分布式计算服务等。

4、批量的分布式集群配置管理:提供对整个集群服务的参数配置修改能力。


五、集群监控巡检

定期对集群健康度进行检查,从整体健康状况、datanode的空间利用率、editlog以及fsimage是否正常合并更新、数据清理状态、主机健康、Hadoop进程、jobtracker监控情况、trash功能等角度排查安全隐患,定期巡检出集群健康报告。


六、实时告警运维

实时告警功能的维护,实现短信告警提醒,监控告警信息,发现集群不足。


七、数据备份

元数据及关键数据定期备份,针对不同级别数据按日、周、月进行备份。


集群故障检测/处理

一、集群故障处理

对集群故障诊断排查、故障处理及恢复


二、硬件故障处理

1、开发软件及工具实现集群硬盘和主机故障自动告警功能。

2、硬盘故障:在不影响业务、不停掉整个集群情况下更换损坏硬盘,并保证数据不丢失。

3、主机故障:在主机故障期间保证业务及集群正常运行,主机修复后使故障主机自动接入集群,并保证数据不丢失。


三、故障处理报告

针对软件、硬件或是网络故障提供故障诊断分析和解决方案;严重故障导致系统不能正常运行,通过电话或远程无法解决,在收到用户通知后的24小时内赶到现场处理。同时针对不同的故障级别规定故障解决时限,故障解决后提交故障报告,详细说明故障解决过程、故障原因和预防+C16措施以备案。