大数据集群设计规划服务
在整个数据驱动的转型之旅中,充分发挥数据的价值至关重要。BEMORE提供原厂/副厂联动技术支持服务,帮助您将Cloudera部署快速、轻松地以更低的成本和最佳的性能从测试转入生产。
建设大数据平台的最终目的是服务于业务需求,解决现有业务问题或者创造新的机会。业务部门可能并不关心是采用大数据技术,还是传统的数据库技术。是否采用大数据技术的主要依据是数据量。如果出现任务运行很久的情况,或者因为计算量太大现有技术不能满足,又或者有大量半结构化、非结构化数据需要处理的时候,可能就有大数据的诉求了。
STEP 1
现状分析及诊断
业务场景、业务逻辑梳理
项目需求及痛点分析
业务应用分析
数据平台层分析
STEP 2
数据资源盘点
结构化化数据
半结构化数据
非结构化数据来源采集方式
爬虫及其他方式
STEP 3
数据平台架构/软件选型
大数据管理平台选型
虚拟化、容器化方式部署推荐
第三方数据抽取/转换/存储工具
商业BI软件选型
虚拟化、容器化方式部署推荐
第三方数据抽取/转换/存储工具
商业BI软件选型
STEP 4
硬件设计选型
服务器配置
网络拓扑
机架部署方式
网络拓扑
机架部署方式
STEP 5
数据标准化体系
统一数据采集平台
数据集市构建
HDFS/NOSQL数据存储
数据集市构建
HDFS/NOSQL数据存储
STEP 6
业务测试集群部署
根据客户要求灵活部署
大数据平台整体架构
- 目录管理
通过盘点和梳理业务数据,编制、发布数据目录,规划和指导数据的接入、管理、治理、开发、共享等。
- 数据集成
为大数据平台提供基础支撑性服务,提供多种数据接入工具,实现结构化和非结构化的数据的汇聚接入,并支持数据的预处理,为大数据平台提供原始数据支撑。
- 数据资产管理
通过管理数据标准、元数据、数据资源等,提高数据资产的价值。
- 数据治理
规范数据的生成以及使用,发现并持续改善数据质量。
- 数据开发
提供大数据开发、分析、挖掘等功能。非专业的业务人员也可以利用图形化的IDE进行数据分析。
- 数据分析
提供从基本数据查询统计、数据交叉汇总、自由钻取分析、多维数据分析等多层次的数据分析功能。
- 数据共享
实现不同部门、不同格式数据的共享交换,以及异构系统之间、新老系统之间的信息的透明交换。
- 数据安全
提升一系列安全工具,包括数据加密、数据脱敏、数据备份、日志审计等。
在整个数据驱动的转型之旅中,充分发挥数据的价值至关重要。
原厂/副厂联动技术支持服务,帮助您轻松地以更低的成本和最佳的性能驱动业务。
原厂/副厂联动技术支持服务,帮助您轻松地以更低的成本和最佳的性能驱动业务。
大数据平台技术架构
- 数据源层
非结构化数据:包括图片、声音、视频等。
半结构化数据:xml、json格式类的数据 。
结构化数据:mysql表、oracle表等。
- 数据获取层
数据获取层的主要作用是实现多源异构数据的采集、聚合、传输及预处理,集成多种数据采集工具。
- 数据存储层
根据采集过来数据的类型、以及后续使用的场景进行区别存储,主要有以下存储路径:
关系数据库:hive、impala等
非关系数据库: hbase、redis等
分布式文件存储:HDFS 、kudu、ozone、s3等
全文索引:Solr、ElasticSearch等
- 数据处理层
离线数据处理:使用MapReduce、Spark做批量计算,计算完成的数据存入数仓进行离线数据分析。
实时数据处理:使用spark streming、flink等处理后做数据可视化
- 数据应用层
基于数据处理层结果进行离线数据分析、实时数据可视化展示、用户画像、精准营销等数据应用。
设计规划服务流程
一、现状分析及诊断
1、业务场景、业务逻辑梳理:大数据开发及运行环境、大数据日志分析系统、商业运营指标分析、个性化推荐系统以及其他带行业特征的系统;
2、项目需求及痛点分析;现有的存储分析已无法满足增长的数据量,数据来源类似于一个个孤岛,数据价值低,数据的整合与可靠性阻碍企业发展;
3、业务应用层分析;市场与精准营销、客户关系管理、企业运营管理、数据商业化、智能化生产等;
4、数据平台层分析。数据抽取存储、数据规划、大数据计算框架、大数据分析引擎。
二、数据资源盘点
结构化化数据、半结构化数据、非结构化数据来源采集方式(爬虫及其他方式)。
三、数据平台架构/软件选型
1、大数据管理平台选型;
2、虚拟化、容器化方式部署推荐;
3、第三方数据抽取/转换/存储工具;
4、商业BI软件选型。
四、硬件设计选型
1、服务器配置;
2、网络拓扑;
3、机架部署方式。
五、数据标准化体系
统一的数据采集平台。借助第三方ETL工具,或Apache开源产品,采集相关业务结构化数据和一定格式的半结构化数据,存放在Hadoop 数据仓库中;
根据业务需求、业务主体进行数据集市构建;
相关业务半结构化数据直接存放在HDFS分布式文件系统中,一定格式关系的的半结构化数据存放在HBase和kudu等NOSQL数据库中。
六、业务测试集群部署
根据客户要求部署。