WHOAMI
Xu Jiang
技术人的日常.
  • Enterprise-BigData-platform-deployment-guide-part-4

    集群的安装方式选择Ambari来进行自动化安装,目前Ambari是开源的大数据管理工具,而HDP是不开源。Ambari做为Apache顶级项目支持可插拔的管理各种不同的大数据发行版,每个公司有技术能力都可以做一个大数据版本,让Ambari进行管理,所以说Ambari其实是支持多平台的一款大数据自动...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-3

    集群设计主要为了说明几个比较实用的分布式软件安装过程中角色分配问题,不同的角色所在机器磁盘划分的主意事项。 角色分配 由于您选择使用Ambari Manager进行集群的自动化部署方式,下面图表显示了在大多数集群的安装时合理化的角色划分方式。 在较大的集群(超过100+个节点...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-2

    各位,今天我们主要聊一下,集群安装前需要做的准备工作,内容会以HDP做为案例,进行相关的规划和设计工作,经验是通用了,适用于各种大数据发行版。 我的画风一直比较严肃,哈哈,其实我是一个很喜欢搞怪的,感觉写程序傻了。 今天这个内容啊,主要还是围绕集群实施安装过程,非常关键的环节环境准备阶段,...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-1

    企业级大数据平台部署实施参考指南,截止目前我设计实现的集群已经几十个了,集群规模从几台到上千台的规模,主要是一些规范和经验吧,记录一下避免遗忘,今天我们聊集群硬件配置。 机架 操作系统版本CentOs6.8,用户名root,密码123456. 在集群安装前,需要收集集群的网络...

    • hadoop
  • 解密Apache Hadoop YARN Fair Scheduler Queue Basics

    在这部分的中, 我们对Fair Scheduler如何运行进行深入了解, 以及其运行原理。 在本系列的第3部分中, 为您提供了关于Fair Scheduler的一个简介, 其一是在Apache Hadoop YARN 选择 scheduler ,(另一个是Cloudera推荐的)在第4部分中,...

    • hadoop
  • 比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

    主题 这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域。这有助于理解它...

    • hadoop
  • 如何在新版Apache Hadoop中使用HDFSIntra-DataNode磁盘均衡器

    目前HDFS包含了(在CDH 5.8.2 及更高版本)一个综合的容量管理存储方法,该方法用于跨节点移动数据。 在HDFS内部,数据节点将数据块分布在本地文件系统目录中,该本地文件系统目录被指定用于dfs.datanode.data.dir in hdfs-site.xml. 在不同的设...

    • hadoop
  • apache-hadoop-insall

    1、 core-site.xml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 <configuration> <property> <name>fs....

    • hadoop
  • Hadoop Native Libraries Guide

    hadoop Native Shared Libraries 使得Hadoop可以使用多种压缩编码算法,来提高数据的io处理性能。不同的压缩库需要依赖到很多Linux本地共享库文件,社区提供的二进制安装包,默认没有支持snappy这样在生产中最常用的压缩格式。而且社区没有提供64位的二进制安装包,...

    • hadoop
  • Hadoop issue collections

    整理在工作中遇到的Hadoop平台遇到的报错信息,以及解决思路。 问题1:基于Yarn统一资源管理平台配置导致 错误信息: Application application_1458180019333_0002 failed 2 times due to AM Container ...

    • hadoop
  • Hadoop列式存储引擎Parquet-ORC和snappy压缩

    相对于传统的行式存储格式,列式存储引擎具有更高的压缩比,更少的IO操作而备受 青睐。列式存储缺点:在column数很多,每次操作大部分列的时候,cpu压力突增,而且增加处理时长。优点:在cloumn数很多,每次操作若干列的场景,列式存储的性价比,性能更高。 在很多大数据的应用场景下面,...

    • hadoop
  • Hadoop平台架构--硬件篇

    还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机 学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉及到硬件资源,网络规划,操作系统,软件栈等一系列问题!对于一个没有经...

    • hadoop
  • Hadoop平台架构--存储篇

    刚刚开始使用Hadoop集群的时候,目录没有有个规范,大家都根据自己的喜好 创建各种不同的目录,权限控制也没有开启,随着应用越来越多,使用的人员也 多了起来,导致目录混乱,终于在新规划集群的时候,对目录做了规范和权限控制. 下面简单介绍一下我们HDFS目录规范和HDFS存储规划,写在Hado...

    • hadoop
  • building hadoop for centos

    1、获取hadoop源码 1 wget http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0-src.tar.gz 2、编译hadoop所需环境 # tar -zxvf h...

    • hadoop
  • apache-hadoop-自动HA的搭建

    1、 core-site.xml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 <configuration> &lt...

    • hadoop
  • apache hadoop federation配置

    节点分配 ns1的namenode:server01 ns2的namenode:server02 datanode:server03,server04 3.1 配置文件(hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-si...

    • hadoop