cloudera learning5:Hadoop集群高级配置

HDFS-NameNode Tuning:

dfs.namenode.handler.count:

NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM,Non CM is 10)。推荐设置为集群node数量*20 再取log。如果设置的太小,当DataNode试图从NameNode上获取block信息时,DataNode log会报“connect refused”。

HDFS-DataNode Tuning:

dfs.datanode.failed.volumes.tolerated:

磁盘挂掉几块时,dataNode自动下线。默认为0,即DataNode不自动下线。

dfs.datanode.max.locked.memory:

DataNode最大的缓存size,默认为4G。

io.compression.codecs文件压缩:

配置Hadoop集群文件压缩策略:DefaultCodec, GzipCodec, BZip2Codec, DeflateCodec, SnappyCodec,Lz4Codec

YARN/GateWay Tuning

mapreduce.job.reduce.slowstart.completedmaps:

Map tasks执行完成百分之多少,开始创建reducer执行的容器。

mapreduce.reduce.shuffle.parallelcopies reducer:

Reducer内部可开的线程数。CM默认为10。推荐值计算方式:ln(count(cluster nodes)*4)

Hadoop cluster产线环境的HA配置:

HA主要是解决NameNode的单点故障,主要指NameNode crash, NameNode manitenance。

启用HA之后,会有两个NameNode(active,standby)和两个Failover Controllers以及若干个同步NameNode的Journal Nodes。不在需要SecondaryNameNode。

clients只连接actvie NameNode。

DataNodes的heartbeat会同时发给active和standby NameNode。

Active NameNode会把metadata写入指定数目(奇数个)的JournalNode。

Standby NameNode从JournalNodes读取metadata信息,完成与Active的sync。

ZooKeeper failover Controller 自动进行Failover。

没有failback,恢复的NameNode自动变为standby。

配置选项:dfs.ha.automatic-failover.enabled

配置HA之后,Hive,impala,Hue均要进行一定的update。

时间: 09-29

cloudera learning5:Hadoop集群高级配置的相关文章

Hadoop的学习前奏(二)——Hadoop集群的配置

前言: Hadoop集群的配置即全然分布式Hadoop配置. 笔者的环境: Linux:  CentOS 6.6(Final) x64 JDK:    java version "1.7.0_75" OpenJDK Runtime Environment (rhel-2.5.4.0.el6_6-x86_64 u75-b13) OpenJDK 64-Bit Server VM (build 24.75-b04, mixed mode) SSH:    OpenSSH_5.3p1, Ope

cloudera learning4:Hadoop集群规划

涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习. Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大. 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的磁盘,一般还要再预估25%buffer.如果一台机器的存储量为16*3T,则大概每个月往集群中增加1台机器. 如何进行硬件选择?一般Hadoop节点分成管理节点(master node)和工作节点(w

基于OGG的Oracle与Hadoop集群准实时同步介绍

Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段.近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍.Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle GoldenGate)来解决. 安装与基本配置 环境说明 软件配置 角色 数据存储服务及版本 OGG版本 IP 源服务器 OracleRelease11.2.0.1 Oracle GoldenGate 11.2

Hadoop集群搭建步骤

实验性操作是在虚拟机里进行的,除了搭建hadoop本身的操作之外,遇到的其它问题总结如下: 1. 虚拟机挂载windows磁盘: 添加硬件,要保证该硬件此时没有被读写访问等,因为挂载后,该磁盘在宿主机上就不能用了.启动虚拟机linux,执行 fdisk –l 查看windows磁盘的分区,如/dev/sdb2,然后执行挂载命令: mount /dev/sdb2 /mnt/win/ 然后就可以到/mnt/win目录下访问磁盘上的内容了 2. hadoop启动时如果报错,提示JAVA_HOME is

Hadoop集群内lzo的安装与配置

LZO压缩,可分块并行处理,解压缩的效率也是可以的. 为了配合部门hadoop平台测试,作者详细的介绍了如何在Hadoop平台下安装lzo所需要软件包:gcc.ant.lzo.lzo编码/解码器并配置lzo的文件:core-site.xml.mapred-site.xml.希望对大家有所帮助.以下是正文: 最近我们部门在测试云计算平台hadoop,我被lzo折腾了三四天,累了个够呛.在此总结一下,也给大家做个参考. 操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-C

Hadoop集群(第1期)_CentOS安装配置

1.准备安装 1.1 系统简介 CentOS 是什么? CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本.每个版本的 CentOS 都会获得七年的支持(通过安全更新方式).新版本的 CentOS 每两年发行一次,而每个版本的 CentOS 会定期(大概每六个月)更新一次,以便支持新的硬件.这样,建立一个安全.低维护.稳定.高预测性.高重复性的 Linux 环境. CentOS(Community Enterprise Operati

Hadoop集群(第1期)CentOS安装配置

1.准备安装 1.1 系统简介 CentOS 是什么? CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本.每个版本的 CentOS 都会获得七年的支持(通过安全更新方式).新版本的 CentOS 每两年发行一次,而每个版本的 CentOS 会定期(大概每六个月)更新一次,以便支持新的硬件.这样,建立一个安全.低维护.稳定.高预测性.高重复性的 Linux 环境. CentOS(Community Enterprise Operati

Hadoop集群选择合适的硬件配置

为Hadoop集群选择合适的硬件配置 随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也

为Linux集群创建新账户,并配置hadoop集群

转自:http://blog.csdn.net/bluesky8640/article/details/6945776 之前装python.jdk.hadoop都是用的root账户,这是一个绝对的失策,linux对用户访问权限很严格,新创的hod账户根本无法启动hadoop,而root在hod模式下使用torque是不被建议的,所以只能用hod账户再重新装一遍. 创建用户.设置密码.修改用户.删除用户: useradd testuser   创建用户testuserpasswd testuser

Hadoop集群(第2期)虚拟机网卡的介绍和配置

很多人安装虚拟机的时候,经常遇到不能上网的问题,而vmware有三种网络模式,对初学者来说也比较眼花聊乱,今天我就来基于虚拟机3种网络模式,帮大家普及下虚拟机上网的背景知识 虚拟机网络模式 无论是vmware,virtual box,virtual pc等虚拟机软件,一般来说,虚拟机有三种网络模式: 1.桥接 2.NAT 3.Host-Only 初学者看到虚拟机有三种网络,估计就慌了,笔者也是.哪一种网络是适合自己的虚拟机呢? 桥接 桥接网络是指本地物理网卡和虚拟网卡通过VMnet0虚拟交换机进