BEMORE 服务
集群基础运维服务
在整个数据驱动的转型之旅中,充分发挥数据的价值至关重要。
BEMORE提供原厂/副厂联动技术支持服务,帮助您将Cloudera部署快速、轻松地以更低的成本和最佳的性能从测试转入生产。
集群健康检测/监控

平台监控

1、Hadoop服务的HDFS文件系统的NameNode数、DataNode数、运行状态、异常情况等监控;JOB个数及运行状态监控。
2、数据库服务监控flare、hive、mysql等数据库可用性、数据库连接数、数据库访问查询效率、数据库占用CPU情况、数据库占用内存情况等监控分析。
3、对集群服务器的可用性、CPU利用率、内存利用率、服务连接访问情况、及各服务特有的服务指标进行监控。

设备监控

对主机、存储、网络等进行磁盘I/O速率、磁盘使用率、服务器网络速率、服务器带宽使用率、CPU利用率、内存利用率、存储吞吐量、存储利用率、网络吞吐量、网络流量、IO速率、带宽利用率等指标的监控,实时告警设备的可用性。

业务监控

针对集群运维应用进行监控,包括调度任务、数据处理流程、数据一致性,数据波动性等进行监控。

监控管理

提供监控管理工具,实现对主机集群的通用管理。
1、集群主机统一管理:为运维人员提供一个集中的操作维护平台,实现服务更新、启停集中维护操作功能。
2、分布式集群节点管理:支持集群中在线添加、移除或者迁移计算节点、存储节点。
3、分布式集群服务管理:支持在集群节点上安装、移除服务,包括DFS分布式文件服务、map\reduce分布式计算服务等。
4、批量的分布式集群配置管理:提供对整个集群服务的参数配置修改能力。

集群监控巡检

定期对集群健康度进行检查,从整体健康状况、datanode的空间利用率、editlog以及fsimage是否正常合并更新、数据清理状态、主机健康、Hadoop进程、jobtracker监控情况、trash功能等角度排查安全隐患,定期巡检出集群健康报告。

实时告警运维

实时告警功能的维护,实现短信告警提醒,监控告警信息,发现集群不足。

数据备份

元数据及关键数据定期备份,针对不同级别数据按日、周、月进行备份。

集群故障检测/处理

集群故障处理

对集群故障诊断排查、故障处理及恢复

硬件故障处理

开发软件及工具实现集群硬盘和主机故障自动告警功能

硬盘故障:在不影响业务、不停掉整个集群情况下更换损坏硬盘,并保证数据不丢失

主机故障:在主机故障期间保证业务及集群正常运行,主机修复后使故障主机自动接入集群,并保证数据不丢失

故障处理报告

针对软件、硬件或是网络故障提供故障诊断分析和解决方案;严重故障导致系统不能正常运行,通过电话或远程无法解决,在收到用户通知后的24小时内赶到现场处理。同时针对不同的故障级别规定故障解决时限,故障解决后提交故障报告,详细说明故障解决过程、故障原因和预防+C16措施以备案。

part-00521-2066

集群基础运维服务

      在整个数据驱动的转型之旅中,充分发挥数据的价值至关重要。

BEMORE提供原厂/副厂联动技术支持服务,帮助您将Cloudera部署快速、轻松地以更低的成本和最佳的性能从测试转入生产。


集群健康检测/监控

一、平台监控

1、Hadoop服务的HDFS文件系统的NameNode数、DataNode数、运行状态、异常情况等监控;JOB个数及运行状态监控。

2、数据库服务监控flare、hive、mysql等数据库可用性、数据库连接数、数据库访问查询效率、数据库占用CPU情况、数据库占用内存情况等监控分析。

3、对集群服务器的可用性、CPU利用率、内存利用率、服务连接访问情况、及各服务特有的服务指标进行监控。


二、设备监控

对主机、存储、网络等进行磁盘I/O速率、磁盘使用率、服务器网络速率、服务器带宽使用率、CPU利用率、内存利用率、存储吞吐量、存储利用率、网络吞吐量、网络流量、IO速率、带宽利用率等指标的监控,实时告警设备的可用性。


三、业务监控

针对集群运维应用进行监控,包括调度任务、数据处理流程、数据一致性,数据波动性等进行监控。


四、监控管理

提供监控管理工具,实现对主机集群的通用管理。

1、集群主机统一管理:为运维人员提供一个集中的操作维护平台,实现服务更新、启停集中维护操作功能。

2、分布式集群节点管理:支持集群中在线添加、移除或者迁移计算节点、存储节点。

3、分布式集群服务管理:支持在集群节点上安装、移除服务,包括DFS分布式文件服务、map\reduce分布式计算服务等。

4、批量的分布式集群配置管理:提供对整个集群服务的参数配置修改能力。


五、集群监控巡检

定期对集群健康度进行检查,从整体健康状况、datanode的空间利用率、editlog以及fsimage是否正常合并更新、数据清理状态、主机健康、Hadoop进程、jobtracker监控情况、trash功能等角度排查安全隐患,定期巡检出集群健康报告。


六、实时告警运维

实时告警功能的维护,实现短信告警提醒,监控告警信息,发现集群不足。


七、数据备份

元数据及关键数据定期备份,针对不同级别数据按日、周、月进行备份。


集群故障检测/处理

一、集群故障处理

对集群故障诊断排查、故障处理及恢复


二、硬件故障处理

1、开发软件及工具实现集群硬盘和主机故障自动告警功能。

2、硬盘故障:在不影响业务、不停掉整个集群情况下更换损坏硬盘,并保证数据不丢失。

3、主机故障:在主机故障期间保证业务及集群正常运行,主机修复后使故障主机自动接入集群,并保证数据不丢失。


三、故障处理报告

针对软件、硬件或是网络故障提供故障诊断分析和解决方案;严重故障导致系统不能正常运行,通过电话或远程无法解决,在收到用户通知后的24小时内赶到现场处理。同时针对不同的故障级别规定故障解决时限,故障解决后提交故障报告,详细说明故障解决过程、故障原因和预防+C16措施以备案。