建设大数据平台的最终目的是服务于业务需求,解决现有业务问题或者创造新的机会。业务部门可能并不关心是采用大数据技术,还是传统的数据库技术。是否采用大数据技术的主要依据是数据量。如果出现任务运行很久的情况,或者因为计算量太大现有技术不能满足,又或者有大量半结构化、非结构化数据需要处理的时候,可能就有大数据的诉求了。

STEP 1
现状分析及诊断

业务场景、业务逻辑梳理
项目需求及痛点分析
业务应用分析
数据平台层分析

STEP 2
数据资源盘点

结构化化数据
半结构化数据
非结构化数据来源采集方式
爬虫及其他方式

STEP 3
数据平台架构/软件选型

大数据管理平台选型
虚拟化、容器化方式部署推荐
第三方数据抽取/转换/存储工具
商业BI软件选型

STEP 4
硬件设计选型

服务器配置
网络拓扑
机架部署方式

STEP 5
数据标准化体系

统一数据采集平台
数据集市构建
HDFS/NOSQL数据存储

STEP 6
业务测试集群部署

根据客户要求灵活部署

大数据平台整体架构
大数据平台整体架构

  • 目录管理
通过盘点和梳理业务数据,编制、发布数据目录,规划和指导数据的接入、管理、治理、开发、共享等。
  • 数据集成
为大数据平台提供基础支撑性服务,提供多种数据接入工具,实现结构化和非结构化的数据的汇聚接入,并支持数据的预处理,为大数据平台提供原始数据支撑。
  • 数据资产管理
通过管理数据标准、元数据、数据资源等,提高数据资产的价值。
  • 数据治理
规范数据的生成以及使用,发现并持续改善数据质量。
  • 数据开发
提供大数据开发、分析、挖掘等功能。非专业的业务人员也可以利用图形化的IDE进行数据分析。
  • 数据分析
提供从基本数据查询统计、数据交叉汇总、自由钻取分析、多维数据分析等多层次的数据分析功能。
  • 数据共享
实现不同部门、不同格式数据的共享交换,以及异构系统之间、新老系统之间的信息的透明交换。
  • 数据安全
提升一系列安全工具,包括数据加密、数据脱敏、数据备份、日志审计等。

集群设计规划服务
在整个数据驱动的转型之旅中,充分发挥数据的价值至关重要。
原厂/副厂联动技术支持服务,帮助您轻松地以更低的成本和最佳的性能驱动业务。
大数据平台技术架构
大数据平台技术架构

  • 数据源层
非结构化数据:包括图片、声音、视频等。
半结构化数据:xml、json格式类的数据 。
结构化数据:mysql表、oracle表等。
  • 数据获取层
数据获取层的主要作用是实现多源异构数据的采集、聚合、传输及预处理,集成多种数据采集工具。
  • 数据存储层
根据采集过来数据的类型、以及后续使用的场景进行区别存储,主要有以下存储路径:
关系数据库:hive、impala等 
非关系数据库: hbase、redis等 
分布式文件存储:HDFS 、kudu、ozone、s3等
全文索引:Solr、ElasticSearch等 
  • 数据处理层
离线数据处理:使用MapReduce、Spark做批量计算,计算完成的数据存入数仓进行离线数据分析。
实时数据处理:使用spark streming、flink等处理后做数据可视化
  • 数据应用层
基于数据处理层结果进行离线数据分析、实时数据可视化展示、用户画像、精准营销等数据应用。