主机故障期保证业务正常运行,故障主机修复后自动接入集群,数据不丢失。
一键部署自动化运维工具,让大数据运维更专业、更简单。
BEMORE运维管理平台是碧茂科技自主研发,针对大数据分布式集群系统设计的自动化管理工具。技术人员可以很容易地部署和集中化操作集群的服务。提供了一个集群范围,实时的主机和服务运行情况的视图;提供了一个单一的中央控制器,对集群配置进行变更;并采用全方位的报告和诊断工具来优化性能和利用率。
集群基础运维服务
在整个数据驱动的转型之旅中,充分发挥数据的价值至关重要。
BEMORE提供原厂/副厂联动技术支持服务,帮助您将Cloudera部署快速、轻松地以更低的成本和最佳的性能从测试转入生产。
集群健康检测/监控
一、平台监控
1、Hadoop服务的HDFS文件系统的NameNode数、DataNode数、运行状态、异常情况等监控;JOB个数及运行状态监控。
2、数据库服务监控flare、hive、mysql等数据库可用性、数据库连接数、数据库访问查询效率、数据库占用CPU情况、数据库占用内存情况等监控分析。
3、对集群服务器的可用性、CPU利用率、内存利用率、服务连接访问情况、及各服务特有的服务指标进行监控。
二、设备监控
对主机、存储、网络等进行磁盘I/O速率、磁盘使用率、服务器网络速率、服务器带宽使用率、CPU利用率、内存利用率、存储吞吐量、存储利用率、网络吞吐量、网络流量、IO速率、带宽利用率等指标的监控,实时告警设备的可用性。
三、业务监控
针对集群运维应用进行监控,包括调度任务、数据处理流程、数据一致性,数据波动性等进行监控。
四、监控管理
提供监控管理工具,实现对主机集群的通用管理。
1、集群主机统一管理:为运维人员提供一个集中的操作维护平台,实现服务更新、启停集中维护操作功能。
2、分布式集群节点管理:支持集群中在线添加、移除或者迁移计算节点、存储节点。
3、分布式集群服务管理:支持在集群节点上安装、移除服务,包括DFS分布式文件服务、map\reduce分布式计算服务等。
4、批量的分布式集群配置管理:提供对整个集群服务的参数配置修改能力。
五、集群监控巡检
定期对集群健康度进行检查,从整体健康状况、datanode的空间利用率、editlog以及fsimage是否正常合并更新、数据清理状态、主机健康、Hadoop进程、jobtracker监控情况、trash功能等角度排查安全隐患,定期巡检出集群健康报告。
六、实时告警运维
实时告警功能的维护,实现短信告警提醒,监控告警信息,发现集群不足。
七、数据备份
元数据及关键数据定期备份,针对不同级别数据按日、周、月进行备份。
集群故障检测/处理
一、集群故障处理
对集群故障诊断排查、故障处理及恢复。
二、硬件故障处理
1、开发软件及工具实现集群硬盘和主机故障自动告警功能。
2、硬盘故障:在不影响业务、不停掉整个集群情况下更换损坏硬盘,并保证数据不丢失。
3、主机故障:在主机故障期间保证业务及集群正常运行,主机修复后使故障主机自动接入集群,并保证数据不丢失。
三、故障处理报告
针对软件、硬件或是网络故障提供故障诊断分析和解决方案;严重故障导致系统不能正常运行,通过电话或远程无法解决,在收到用户通知后的24小时内赶到现场处理。同时针对不同的故障级别规定故障解决时限,故障解决后提交故障报告,详细说明故障解决过程、故障原因和预防+C16措施以备案。