Apache Spark开发培训
课程概述:
通过Hadoop和企业数据中心(Enterprise Data Hub)的培训将您的知识提升到一个新的水平,并且解决实际问题。
可以使得培训学员能够构建完整和统一的大数据应用程序,对拥有的所有数据进行批处理、流处理和交互式分析。借助Spark,开发人员可以编写适用于广泛的应用案例、体系结构以及不同行业的复杂并行应用,实现更快、更好的商业决策和采取实时的应对。
 
课时安排:
3天/18课时。
 
提升你的生态系统专业知识:
Apache Spark是MapReduce的下一代继任者。Spark是一款适用于Hadoop集群数据的功能强大的开源处理引擎,专门为高速、易用性和复杂分析功能进行了大量优化。Spark体系框架支持流数据处理以及复杂的迭代算法,因此相对于传统的Hadoop MapReduce程序,可以使应用程序的运行速度最高提升100倍。
 
培训内容:
通过讲师在课堂上的讲解,以及实操练习,学员将熟悉Hadoop生态系统,学习主题包括:
> 使用Spark shell进行交互式数据分析。
> Spark中弹性分布式数据集的特点。
> 如何在集群上运行Spark。
> Spark如何并行执行任务。
> 编写Spark应用程序。
> 使用Spark处理流数据。
 
培训对象及学员基础:
本课程最适合那些已经具备Hadoop知识和经验的开发人员和工程师。课程案例和练习都是采用Python和Scala语言编写的,因此培训学员需要熟悉其中一种编程语言。培训学员需具备Linux的基本知识。
 
客户评价:
“Cloudera大学是迄今为止我所参加的最精心策划和组织的技术培训。通过参加培训,我有信心在企业数据中心平台上搭建大数据应用,并且期待可以尽早利用我在课堂上学到的这些工具。”
—— 普华永道会计师事务所(PricewaterhouseCoopers)