成都大数据Hadoop与Spark技术培训班

  • 成都大数据Hadoop与Spark技术培训班

中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师、开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施。

2015年近期公开课安排:(全国巡回开班)

08月21日——08月23日大连

09月23日——09月25日北京

10月16日——10月18日成都

11月27日——11月29日深圳

12月24日——12月26日广州

01月27日——01月29日杭州

招生对象:

大数据Hadoop与Spark技术的应用开发工程师

大数据分析与挖掘工程师

大数据集群运维工程师

大数据项目的IT管理人员

大数据项目规划的咨询人员

对Hadoop与Spark大数据技术感兴趣的爱好者

打算上线大数据项目及具有大数据应用需求的各行业的企业信息化技术与管理人员

具备一定的Java和Linux基础的尤佳。

培训证书:中国信息化培训中心颁发的《大数据Hadoop开发高级架构师》证书。

收费标准:5800/

公开课培训大纲:(内训方案可定制)


日程


培训模块


培训要点


第一天

上午


一、大数据技术基础入门


1.大数据的产生背景、发展历程

2.大数据和云计算的关系

3.大数据应用需求以及潜在价值分析

4.业界最新的大数据技术发展态势与应用趋势

5.大数据项目的技术选型与架构设计

6.“互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析


二、业界主流的大数据技术产品与项目解决方案


7.国内外主流的大数据解决方案介绍

8.当前大数据解决方案与传统数据库方案的剖析比较

9.Apache大数据平台方案剖析

10.CDH大数据平台方案剖析

11.HDP大数据平台方案剖析

12.开源的大数据生态系统平台剖析


三、Hadoop与Spark大数据处理平台


13.Hadoop的发展历程以及产业界的实际应用介绍

14.Hadoop大数据平台架构,以及PB级大数据处理工作原理与机制

15.Hadoop的核心组件剖析

16.Spark的发展历程以及业界的实际应用介绍

17.Spark实时大数据处理平台架构,以及内存大数据处理工作原理与机制

18.Spark的核心组件剖析


第一天

下午


四、大数据采集与分布式消息订阅系统


19.Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战

20.Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战

21.Scribe分布式日志收集系统的简介、工作原理、平台架构、集群部署与配置应用实战

22.ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署与配置应用实战


五、大数据分布式存储系统


23.分布式文件系统HDFS的简介

24.HDFS系统的主从式平台架构和工作原理

25.HDFS核心技术讲解

26.HDFS应用开发实战

27.HDFS集群的安装、部署、配置与性能优化技巧

28.分布式键值存储系统介绍、平台架构、核心技术以及应用开发

29.PB及大数据存储系统的项目案例分析


六、大数据MapReduce与Yarn并行处理平台


30.MapReduce并行计算模型

31.MapReduce作业执行与调度技术

32.第二代大数据计算框架Yarn的工作原理以及DAG并行执行机制

33.MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发

34.MapReduce高级编程技巧与性能优化实践

35.MapReduce与Yarn项目案例实践


第二天

上午


七、大数据Spark实时处理平台


36.内存计算模型和实时处理技术介绍

37.Spark分布式实时处理框架及工作原理

38.Spark集群的平台架构及其生态系统组件剖析

39.Spark SQL应用实践

40.Spark Streaming应用实践

41.MLib/MLBase实时机器学习应用实践

42.GraphX实时图数据处理应用实践

43.Spark实时处理集群的安装部署与配置优化

44.Spark的编程开发应用实战

45.Spark与Hadoop的对接集成解决方案实践


八、Storm流式数据处理平台


46.Storm流式处理系统介绍、平台架构以及工作原理

47.Storm集群安装部署与配置优化

48.Storm日志分析项目应用实战


第二天

下午


九、HBase分布式数据库管理系统


49.NoSQL数据库与NewSQL数据库技术介绍,及其在半结构化和非结构化大数据方面的应用实践

50.HBase分布式数据库简介、数据模型以及工作原理

51.HBase分布式数据库集群的平台架构和关键技术剖析

52.HBase应用项目开发技巧,以及客户端开发实战

53.HBase表设计与数据操作以及数据库管理API调用

54.HBase集群的安装部署与配置优化

55.HBase集群的运维与监控管理

 
十、Cassandra数据管理系统


56.Cassandra数据存储管理系统的应用介绍

57.Cassandra集群的平台架构以及核心关键技术

58.Cassandra一致性哈希算法与数据对象分布策略

59.Cassandra集群的安装部署与配置优化

60.Cassandra应用开发实战


第三天

上午


十一、内存数据库管理系统集群


61.Impala实时查询系统的应用介绍

62.Impala实时查询系统平台架构、核心关键技术剖析

63.Impala实时查询系统的部署与应用开发实践

64.Redis内存数据库介绍,以及业界应用案例

65.Redis内存数据库集群架构以及核心技术剖析

66.Redis集群的安装部署与应用开发实战


十二、大型数据仓库Hive集群平台


67.基于Hadoop的大型分布式数据仓库基础知识,以及在行业中的应用实践案例

68.基于Spark的实时数据仓库集群基础知识,以及在行业中的应用实践案例

69.Hive大数据仓库简介以及应用介绍

70.Hive数据仓库集群的平台体系结构、核心技术剖析

71.Hive Server工作原理与应用技巧

72.Hive数据仓库集群的安装部署与配置优化

73.Hive应用开发技巧

74.Hive QL定义以及应用

75.Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧

76.Hive数据仓库报表设计、HWI、CLI客户端演示以及用户自定义函数(UDF)的开发实践


第三天

下午


十三、Mahout大数据分析挖掘平台


77.大数据分析挖掘技术介绍,以及行业大数据挖掘应用案例

78.Mahout大数据挖掘平台的体系架构、核心算法与关键技术运用

79.基于Mahout的数据挖掘应用程序开发实战

80.Mahout集群的安装部署与配置优化

81.集成Mahout与Hadoop集成大数据挖掘平台应用实战


十四、大数据智能化ETL操作以及Hadoop集群运维监控工具平台应用


82.Hadoop与DBMS之间进行数据转换的框架

83.Sqoop导入导出数据的工作原理,以及Sqoop集群安装部署与配置

84.Kettle集群的平台架构、核心技术工作原理以及应用案例

85.Kettle集群安装部署与配置,以及应用开发实战

86.利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互程序

87.Hadoop大数据运维监控系统HUE平台的安装部署与配置优化


十五、大数据项目应用实战


88.根据布置的实际应用案例,开展大数据完整项目部署设计和应用开发实践

时间: 04-10

成都大数据Hadoop与Spark技术培训班的相关文章

网易大数据平台的Spark技术实践

网易大数据平台的Spark技术实践 作者 王健宗 网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销. 实时计算指针对只读(Read Only)数据进行即时数据的获取和计算,也可以成为在线计算,在线计算的实时级别分为三类:Real-Time(msec/sec级).Near Real-Time(min/hours

大数据实时处理-基于Spark的大数据实时处理及应用技术培训

随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop/Yarn平台,但目前对大数据的实时分析工具,业界公认最佳为Spark.Spark是基于内存计算的大数据并行计算框架,Spark目前是Apache软件基金会旗下,顶级的开源项目,Spark提出的DAG作为MapReduce的替代方案,兼容HDFS.H

大数据Hadoop最佳实践(V3)

一:课程简介: Hadoop是当下云计算大数据的王者. Hadoop不仅是一个大数据的计算框架,同时也是大数据的存储平台. 使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择 使用Hadoop可以主要完成: 1,构建离线处理平台,完成海量离线数据的存储分析,相对于传统的关系型数据

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS.MapReduce.BigTable相对的HDFS.MapReduce.和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔. 二:课程特色 1,      深入浅出中动手实作: 2,      掌握Hadoop三大核心:HDFS.Map

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

DT大数据梦工厂Spark机器学习相关视频资料

大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向,中国在大数据方面才刚刚起步,但是在美国已经产生了上千亿的市场价值.举个例子,美国通用公司是一个生产飞机发动机的一个公司,这家公司在飞机发动机的每一个零部件上都安装了传感器,这些传感器在飞机发动机运作的同时不断的把发动机状态的数据传到通用公司的云平台上,通用公司又有很多数据分析中心专门接受这些数据,根据大数据的分析可以随时掌握每一家航空公司发动机的飞行状况,可以告知这些航空公司发动机的哪些部件需要检修或保养,避免飞机事

大数据计算平台Spark内核全面解读

1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用.2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录.Spark利用1/10的节点数,把100TB数据的排序时间从72分钟提高到了23分钟. Spark在架构上包括内核部分和4

c#WEB转入大数据HADOOP平台的2014总结

浮浮沉沉的那是流水,起起落落的才是人生嘛. 抽根烟先--(各位同学都知道我不抽烟哈,这个,哈哈,思考人生的时候还是会抽根)刚刚和同学吃完饭从滨江路回来,我和他在一起一般都是谈谈自己的近况.我和他住得不远,上班离得很近,但是也不经常见面,但是需要对方的时候打个电话,总会在一个电话后及时出现在你的面前(搞得像基友一样,罪过,罪过).这个是必须的,我和他也算一种前世修来的缘份吧,认识马上快10年了,大学同学中,我是他在这里的唯一,他也是我在这里的唯一,也许这辈子剩下的时间还得走下去,生活中的坎坷我们互

大数据Hadoop快速入门

1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效.可伸缩的特点 Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下 2.HDFS 源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障 HDFS简化了文件一致性模