机器学习的四大基本平台要素

发布日期:2021-01-08 14:50
b4840612ff43914b67d38a8fa248b6d6.png
要在整个企业中部署和扩展 AI/ML,从数据到模型再到取得成果都需要施行复杂且迭代性的工作流程。想要做到这些却绝非易事,实际上,目前仅有 35% 的企业机构表示已将分析模型部署到生产中。此外,随着 AI/ML 项目和模型数量的成倍增加,生产环境机器学习系统可能会变得缓慢、繁琐且充满了 “错误的开始”,使之变得更加困难并且成本更高。

我们所需要的是一个开放、统一、协作、安全和可治理的企业级环境,能够以透明、 一致、信任及高性能的方式运行和管理所有 AI/ML 模型。 

典型的机器学习数据科学工作流程非常复杂且高度迭代
1.数据工程包括数据采集、处理和治理。
  • 数据处理 :原始数据的格式通常不便于开发人员进行分析,因此必须进行数据清理和准备。 
  • 数据治理 :随着企业机构越来越多地应用数据(和分析),为了应对更重要的问 题,更好地治理这些资产的需求也在增加。每一家企业机构都应该关注其源系统中的数据质量,但是实际上在各个部门之间这些问题通常是孤立的、不可见的。 安全性、隐私性和合规性是数据治理的重要元素。
2.传统分析和商业智能(BI)包括数据整理、数据可视化和数据建模。
  • 数据整理是将数 “原始” 数据形式转换和映射为另一种格式的过程,其目的是使之更适用于各种下游分析,也更有价值。
  • 数据可视化有助于识别数据的重要模式和趋势。人们可以通过折线图或条形图 等简洁的图表获得更好的洞察。
  • 数据建模是将存储在数据库中的各种信息绘制成描述性关系图的过程。
3.探索性数据科学和机器学习包括概率建模和机器学习模型开发(包括模型训练和测试)。
  • 概率建模有助于基于各种输入和数据了解可能发生情况的概率。
  • 机器学习模型开发可自动执行流程或进行持续的预测,也可根据新数据进行学习 / 变更。这种模式可以是产品层面上的,例如,了解某人经常在 Netflix 上观看什么,并推送他们可能会喜欢的节目 ;或是业务层面上的-例如,从输入数据中检测异常或模式以防止欺诈。
4.生产 / 部署是将结果(更好的自动化、预测、创新等)交付给利益相关者(客户、 内部业务部门等)的过程。我们可以采用不同的方法部署模型了解最终用户(客户) 的意图,有助于确定所需的技术。部署阶段既可以像生成报告一样简单,也可以像实施可重复的数据科学过程一样复杂。

成功的生产环境机器学习系统需要简化、无摩擦且可预测的部署,以及大规模服务 和持续治理机器学习模型。在统一平台上专门构建的端到端治理体系,使客户能够 建立数据管道,训练和生产机器学习模型,从而优化业务流程和产品以获得竞争优势。
分享到:
推荐精彩博文