【教程分享】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

课程讲师:迪伦

课程分类:Java

适合人群:高级

课时数量:96课时

用到技术:MapReduce、HDFS、Map-Reduce、Hive、Sqoop

涉及项目:Greenplum Hadoop大数据分析平台

更新程度:完毕

对这个课程有兴趣的朋友可以加我的QQ2059055336和我联系

下载地址:链接:   pan.baidu.com/s/1nthYpKH 密码: niyi

随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。

一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

本课程讲师拥有多年Greenplum和Hadoop实战经验,课程注重实践,原理剖析,实践分享,让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

课程实战、实用、实际,总共 96 课时,系史上最全最深入的讲解Greenplum、Hadoop、云计算相关领域的技能课程,北风仅以此课程献给有志于从事大数据行业,追求高薪的有想法的程序员。

课程亮点多多:

亮点一、技术混搭

Greenplum+Hadoop,让你全面掌握玩转大数据的倚天剑和屠龙刀,让你学到不一样的精彩,成为不一样的复合型               人才!

亮点二、高成低也就

亮点三、既注重技术基础,手把手传授技术,通过实操实战的讲授过程让学员沉淀技术,打好牢固坚实的基础;另外,也不                忘从行业、架构的高度,帮助大家扩宽视野,游刃有余。

亮点四、注重实践:原理剖析,实践分享;让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

实战、实用、实际

亮点五、 全面覆盖了Greenplum完整知识体系,及关系型数据库管理和调优思想;

亮点六、课程涵盖Hadoop生态系统中所有常用组件;

亮点七、 学完此课程可以获得IT行业高薪职业发展能力。

课程大纲

第一部分 Greenplum 分布式数据库基础(41课时)

1 Greenplum架构

什么是Greenplum

Greenplum体系结构

Greenplum高可用性架构

2 安装Greenplum

配置环境

安装并初始化GPDB系统

启停数据库

配置GP系统

3 分布式数据库存储

数据是如何存储的

分布策略

4 GBDB查询处理

查询命令的执行

SQL查询处理机制

并行查询计划

5 角色权限及客户端认证管理

客户端认证

管理用户和组

6 客户端接口和程序

pgAdmin III

PSQL

7 定义数据库对象

创建并管理数据库

创建并管理表空间

创建并管理模式

创建并管理表

分区表

数据分布与分区

压缩存储与行列存储

序列、索引与视图

8 管理数据

插入、更新、删除记录

事务管理

空间回收和统计

9 查询数据

定义查询

使用函数和运算符

查询分析

10 工作负载及资源管理

GP工作负载管理概述

配置工作负载管理

创建资源队列

分配资源队列

检查资源队列状态

11 装载和卸载数据

GP装载命令概述

装载数据到GP

从GP卸载数据

格式化数据文件

12 备份恢复

串行备份和恢复

并行恢复和恢复

13 性能调优

如何进行调优

常见的性能问题

14 GP系统配置参数

关于GP的Master参数与本地化参数

设置配置参数

配置参数种类

15 开启高可用性

GP高可用概述

开启GP的Mirror

获知Segment何时失败

恢复失败的Segment

恢复失败的Master

16 GP MapReduce

MapReduce基础

GP MapReduce编程

MapReduce作业执行和故障诊断

第二部分 Hadoop分布式平台(55课时)

1 Hadoop的起源和体系

Hadoop思想起源:Google

Hadoop子项目家族

Hadoop的架构

2 Hadoop的安装与配置

准备和配置环境

三种运行模式

完全分布式模式安装

3 HDFS-大数据存储

HDFS概念与体系结构

HDFS的可靠性

HDFS文件操作

HDFS API

4 关于MapReduce

MapReduce编程模型

MapReduce的集群行为

MapReduce任务的优化

MapReduce工作机制

错误处理及作业调度机制

5 MapReduce应用开发

Hadoop Eclipse插件开发

数据筛选程序开发

倒排索引程序开发

6 Hadoop监控与管理

页面监控

hadoop备份

7 HBase数据库

Hbase体系结构

HBase shell

HBase API应用实例

HBase场景应用

HBase模式设计

8 Hive数据仓库

Hive组件与体系架构

Hive安装配置

Hive的服务接口

HiveQL常用操作

Hive的优化

Hive UDF编程

Hive综合实战

9 Pig数据分析平台

Pig框架

Pig安装配置

Pig的使用

Pig的数据模型

常用Pig Latin操作

Pig UDF编程

Pig数据分析实战

10 ZooKeeper分布式服务框架

ZooKeeper工作原理

ZooKeeper设计目标

ZooKeeper的数据结构和组成

ZooKeeper的安装配置

ZooKeeper命令行工具

ZooKeeper API

ZooKeeper实战:Hadoop任务调度

11 Chukwa集群监控系统

Chukwa的组成

Chukwa架构和设计

Chukwa安装与配置

常用Chukwa命令

实现自定义数据处理

12 Hadoop商业应用案例

云计算概念和特征

云计算服务模式和形态

Hadoop在云计算的运用

京东商城

百度

阿里巴巴

腾讯

13 Greenplum Hadoop集群

集成架构的特征

集成架构的优势

配置gphdfs协议使用环境

使用HDFS外部表

【教程分享】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析,布布扣,bubuko.com

时间: 05-21

【教程分享】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析的相关文章

基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员. Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 . 一般需要大数据处理的公司基本上都是大公司,所以学习had

Hadoop分布式平台的大数据解决方案

讲师:迪伦 对这个课程有兴趣的可以加我qq2059055336联系我 1 课程背景 GREENPLUM适用场景 Greenplum的架构采用了MPP(大规模并行处理).在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统.数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快.而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性.因此,它主要适用于面向分析的应用.比如构建企业级ODS/EDW,或者数据集市等等. GREENPLUM运行的平台 GREENPLUM

Greenplum Hadoop分布式平台大数据解决方案实战教程

基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析 [上集]百度网盘下载:链接:http://pan.baidu.com/s/1eQJFXZ0 密码:kdx9 [下集]百度网盘下载:链接:http://pan.baidu.com/s/1hq4cO2w密码:cnsq 课程内容简介: 本课程分两大部分: 第一部分全面深入地介绍了Greenplum数据库,包括架构特性.部署.管理.开发和调优等,由浅入深 ,理论结合实战,让同学全面彻底掌握这把大数据利剑. 第二部分深入阐述

基于HBase Hadoop 分布式集群环境下的MapReduce程序开发

HBase分布式集群环境搭建成功后,连续4.5天实验客户端Map/Reduce程序开发,这方面的代码网上多得是,写个测试代码非常容易,可是真正运行起来可说是历经挫折.下面就是我最终调通并让程序在集群上运行起来的一些经验教训. 一.首先说一下我的环境: 1,集群的环境配置请见这篇博文. 2,开发客户机环境:操作系统是CentOS6.5,JDK版本是1.7.0-60,开发工具是Eclipse(原始安装是从google的ADT网站下载的ADT专用开发环境,后来加装了Java企业开发的工具,启动Flas

数道云大数据平台解决方案,Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

波若大数据平台(BR-odp)Hadoop + HDFS+Hive+Hbase大数据开发工具剖析: HDFS:分布式.高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,大规模的波若大数据平台(BR-odp)用户部署上1000台的HDFS集群.数据规模高达50PB以上 HDFS和MR共同组成Hadoop分布式系统体系结构的核心.HDFS在集群上实现了分布式文件系统,MR在集群上实现了分布式计算和任务处理.HDFS在MR任务处理过程中提供了文件操作和存储等支持,MR在HDF

Hadoop环境中管理大数据存储八大技巧

随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能

【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心API已经稳定: 从功能的角度考虑使用最新版本的Spark 1.0.2也是非常好的,Spark 1.0.2在Spark 1.0.1的基础上做了非常多的改进: Spark 1.0.2改进参考 http://spark.apache.org/releases/spark-release-1-0-2.ht

《Hadoop高级编程——构建与实现大数据解决方案》有奖试读

一. 活动主题: <Hadoop高级编程--构建与实现大数据解决方案>有奖试读,点击查看图书详情 二. 活动时间: 2014年8月6日至2014年9月5日(为期1个月) 三. 参与方式 : 您可以选择下面任何一种方式来参加我们的活动! 1. 阅读我们精选的<Hadoop高级编程>试读章节(点击下载PDF文档),并将书评发布在本篇博客的评论区,每位用户可发表多一条或多条书评,书评优秀可重复获奖. 2. 将活动转发至新浪微博并关注@清华大学出版社第五事业部,或者关注官方微信@清华书友(

Hadoop高级编程—构建与实现大数据解决方案pdf

下载地址:网盘下载 内容简介  · · · · · · 如果你已经准备好要充分实施大规模可扩展性数据分析工作,那么需要知道如何利用Hadoop技术.这本<Hadoop高级编程--构建与实现大数据解决方案>可以帮助你做到这一点!本书关注用于构建先进的.基于Hadoop的企业级应用的架构和方案,并为实现现实的解决方案提供深入的.代码级的讲解.本书还会带你领略数据设计以及数据设计如何影响实现.本书解释了MapReduce的工作原理,并展示了如何在MapReduce中重新定制特定的业务问题.在整本书中