Cloudera Developer之Spark 及 Hadoop 开发员培训(CCA-175)

学习如何将数据导入到 Apache Hadoop 机群并使用 Spark、Hive、Flume、Sqoop、Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析。

详情:https://www.huodongjia.com/event-1838227010.html

在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到 Hadoop 机群并进行处理。通过学习掌握诸如 Spark、Hive、Flume、Sqoop 和 Impala 这样的 Hadoop 生态系统工具和技术,Hadoop 开发员将具备解决实际大数据问题和挑战的能力。本课程包含了大量的实操及编程练习来帮助学员熟悉并掌握各种工具,并最终获得在实际工作中针对特定的问题或场景来选取最佳解决工具或技术的能力。

“通过 Cloudera 的培训,让我们在使用大数据核心平台 Hadoop 方面,能把握现在、更能信心百倍地在未来面对和赢得更多的大数据挑战。”

——Persado

培训内容

通过讲师在课堂上的讲解,以及实操练习,学员将学习 Apache Spark 及如何将其集成到整个 Hadoop 生态系统中去,包括以下内容:

  • 数据是如何在 Hadoop 机群里进行分布式存储及处理的
  • 如何使用 Sqoop 和 Flume 导入数据
  • 如何使用 Apache Spark 处理分布式数据
  • 如何使用 Impala 及 Hive 将结构化数据建模成表并进行分析查询
  • 如何根据数据使用场景来确定最佳存储格式
  • 数据存储最佳实践

培训对象及学员基础

本课程适合准备报考 CCA Spark 及 Hadoop 开发员认证考试的技术人员。虽然通过该认证考试,考生仍然需要做进一步的学习和准备,但是本课程涵盖了在该认证考试中考核的很多主题和知识点。

在参加完本培训后,我们建议学员参加此课程的一个后继课程:“设计和创建大数据应用”。

课程介绍

Hadoop 及生态系统介绍

  • 传统大规模系统的问题
  • Hadoop !
  • Hadoop 生态系统

Hadoop 体系结构及 HDFS

  • 机群环境下的分布式处理
  • 存储:HDFS 体系结构
  • 存储:使用 HDFS
  • 资源管理:YARN 体系结构
  • 资源管理:使用 YARN

使用 Apache Sqoop 导入关系数据

  • Sqoop 简介
  • 数据的基本导入导出
  • 减少传输的数据量
  • 改善 Sqoop 性能
  • Sqoop 2

Impala 及 Hive 介绍

  • 简介
  • 为什么使用 Impala 及 Hive
  • Hive 和传统数据库的比较
  • Hive 应用场景

使用 Impala 及 Hive 管理数据及建模

  • 数据存储
  • 创建数据库及表
  • 表数据导入
  • HCatalog
  • Impala 元数据缓存

数据格式

  • 选择文件格式
  • 支持不同文件格式的工具
  • Avro 数据格式定义模式
  • 在 Hive 及 Sqoop 里使用 Avro
  • Avro 格式数据模式变更
  • 压缩

数据分区

  • 分区概述
  • Impala 及 Hive 里的数据分区

Apache Flume 实时数据采集

  • 什么是 Apache Flume
  • Flume 基本体系结构
  • Flume 源
  • Flume 槽
  • Flume 通道
  • Flume 配置

Spark 基础

  • 什么是 Apache Spark
  • 使用 Spark Shell
  • RDDs( 可恢复的分布式数据集)
  • Spark 里的函数式编程

Spark RDD

  • RDD
  • 键值对 RDD
  • MapReduce
  • 其他键值对 RDD 操作

编写和部署 Spark 应用

  • Spark 应用对比 Spark Shell
  • 创建 SparkContext
  • 创建 Spark 应用(Scala 和 Java)
  • 运行 Spark 应用
  • Spark 应用 WebUI
  • 配置 Spark 属性
  • 运行日志

Spark 的并行处理

  • 回顾:机群环境里的Spark
  • RDD 分区
  • 基于文件RDD 的分区
  • HDFS 和本地化数据
  • 执行并行操作
  • 执行阶段及任务

Spark 缓存和持久化

  • RDD 演变
  • 缓存
  • 分布式持久化

Spark 数据处理的常见模式

  • 常见 Spark 应用案例
  • 迭代式算法
  • 图处理及分析
  • 机器学习
  • 例子:K -Means

预览:Spark SQL

  • Spark SQL 和 SQL Context
  • 创建 DataFrames
  • 变更及查询 DataFrames
  • 保存 DataFrames
  • Spark SQL 对比 Impala

总结

培训费用

8500元/人次,包含一次对应的考试(如果来参加培训的人不考试,仅参加培训的价格为6500/人次)

费用包含:教材、实验手册、虚拟机、税票费用(8500是含考试的)

教室设施:投影、WiFi、排插、饮水(三餐及住宿请自理)

PS:上课时需携带笔记本电脑,虚拟机及课件由讲师发放

CCA Spark and Hadoop Developer (CCA175) 开发者认证

认证准备建议:Spark and Hadoop开发者培训

考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题

培训报名指南>>>>https://www.huodongjia.com/event-1838227010.html

 

相关培训:

Cloudera Developer training for Spark and Hadoop(CCA-175)  2017-09-27 上海

Cloudera Administrator Training for Apache Hadoop(CCA131)  2017-09-18 北京

时间: 07-26

Cloudera Developer之Spark 及 Hadoop 开发员培训(CCA-175)的相关文章

Cloudera Spark 及 Hadoop 开发员培训学习【北京上海】

Spark 及 Hadoop 开发员培训 学习如何将数据导入到 Apache Hadoop 机群并使用 Spark.Hive.Flume.Sqoop.Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析 在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到 Hadoop 机群并进行处理.通过学习掌握诸如 Spark.Hive.Flume.Sqoop 和 Impala 这样的 Hadoop 生态系统工具和技术,Hadoop 开发员将具备解决实际大数据问

Cloudera公司主要提供Apache Hadoop开发工程师认证

Cloudera Cloudera公司主要提供Apache Hadoop开发工程师认证(Cloudera CertifiedDeveloper for Apache Hadoop ,CCDH)和Apache Hadoop管理工程师认证(Cloudera CertifiedAdministrator for Apache Hadoop ,CCAH),更多相关信息,请参阅Cloudera公司官方网站. Hortonworks Hortonworks Hadoop培训课程是由Apache Hadoop

北京上海广州Cloudera Hadoop大数据:CCAH(管理员)、CCA(Spark and Hadoop)、HBase

上海5月21-24日ClouderaAaminisrrator Training for Apache Hadoop(CCAH) 广州6月1-3日Cloudera Trainingfor Apache Hbase 广州6月18-21日Cloudera Developertraining for Spark and Hadoop(CCA-175) 上海6月27-30日Cloudera Developertraining for Spark and Hadoop(CCA-175) 北京7月7-10日

CDH培训——Cloudera Developer Training for Spark and hadoop

Cloudera Developer Training for Spark and hadoop Course Time:2016年6月27-30日 Course Location:上海市 浦东新区 张江高科 伯克利工程创新中心 Contact us:400-679-6113 QQ:1438118790 Certification:CCA-175 Learn how toimport data into your Apache Hadoop closter and process it with

大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm【转】

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好 的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言. 我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术?2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性?3.Spark与hadoop的关联是什么?4.Storm与hadoop的关联是什么? h

北京上海Cloudera Hadoop大数据培训:CCAH(管理员)、CCA(程序员)

北京上海Cloudera Hadoop大数据培训:CCAH(管理员).CCA(Spark and Hadoop) 北京9月27-30日Cloudera  Administrator Training for Apache Hadoop(CCAH) 上海9月27-30日Cloudera  Administrator Training for Apache Hadoop(CCAH) 北京10月17-20日Cloudera Data Analyst Training 上海10月27-30日Cloude

Windows下搭建Spark+Hadoop开发环境

只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装) 下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.7.1/ 下载其中的hadoop-2.7.1.tar.gz并解压到一个固定目录作为Hadoop安装目录. 2. 下载支持插件 下载地址:https://github.com/ShixiangWan/winut

上海Cloudera Hadoop大数据培训:CCAH、CCP:DE

上海Cloudera Hadoop大数据培训:CCAH.CCP:DE 北京.上海.广州长期开班 3月上海开班时间:管理员(3月1-4日):开发者(3月23-26日) [其他课程安排请咨询]15000519329(陈老师) QQ群:Cloudera大数据 478790619 课程内容: [Cloudera Apache Hadoop管理员课程] 课时:4天 学习系统管理的概念和Apache Hadoop的最佳实践, 从安装和配置到负载均衡和调优. 这个4天的的课程通过动手时间来赋予你部署的经验,

12月上海Cloudera Hadoop大数据培训:CCAH、CCDH

北京.上海.广州.成都长期开班:南京.杭州.芜湖定期开班 12月上海开班时间:管理员周末班(12月12-13日:12月19-20日) 开发者脱产班(12月28-31日) [其他课程安排请咨询]15000519329(陈老师) 课程内容: [Cloudera Apache Hadoop管理员课程] 课时:4天 学习系统管理的概念和Apache Hadoop的最佳实践, 从安装和配置到负载均衡和调优. 这个4天的的课程通过动手时间来赋予你部署的经验, 以及更多的安全方面的经验和故障排除. 课程结束后