WHOAMI
Xu Jiang
技术人的日常.
  • Parquet-library-fatal-error

    parquet-Hadoop 1.9.0 大量close-wait问题。 一个开源基础库引发的严重产品事故,整个事件场内block超过4小时以上。 我们某服务部署上线,界面化的DAG任务,主要跑机器学习全流程作业,运行一段时间,发现后端数据平台查询、预览数据功能全部不可用,导致大量上游业务...

    • Parquet
  • Hortonworks Data Platform 3.0.0平台宣布正式GA

    HDP 3.0.0 GA Hortonworks Data Platform 3.0.0版本,基本上集成Hadoop社区生态最新版本的强大功能特性,实现真正混合型数据平台。 如图,HDP 3.0.0 版本核心功能特性。 我们上篇,其实就介绍了大数据数据平台发展的几个方向,而H...

    • hortonworks
    • ambari
  • Why Spark RDD

    我提出的论文计划,一再被打乱,我也在找机会慢慢调整过来。 今天,我们聊一聊Spark,我第一次在工作中使使用spark是0.9版本,当时是试用Spark来做OLAP Cube模型,那个时候的SparkSQL称为 Shark ,历史原因,spark 1.0以后的版本被SparkSQL取代,sha...

    • 2018
    • Spark
  • bigtable-osdi06

    简介 BigTable是Google提出的一个分布式的海量数据存储系统。Google将其运用在一些数据量较大的应用中。从分布式系统CAP角度理解,BigTable是牺牲高可用性,主要加强数据一致性和可扩展性。 早期BigTable设计主要解决,海量的网页数据存储。搜索引擎抓取的海量网页数...

    • BigTable
  • A Distributed Storage System for Structured Data

    简介 BigTable是Google提出的一个分布式的海量数据存储系统。Google将其运用在一些数据量较大的应用中。从分布式系统CAP角度理解,BigTable是牺牲高可用性,主要加强数据一致性和可扩展性。 早期BigTable设计主要解决,海量的网页数据存储。搜索引擎抓取的海量网页数...

    • bigtable
  • mapreduce-osdi04

    我曾经多次提到过,我涉猎广泛,但是没有有个精通的技能,在大数据领域几年,也没什么成果。 我开始尝试改变,未来很长一段时间注重修炼内功,是什么让我有这样的改变? 极客时间 购买《朱赟的技术管理课》, 安姐 聊到很多技术管理经验,介绍算法一节: 招式在花哨,敌不过内功深厚 。 安姐 重写了四遍...

    • mapreduce
  • distributed-file-system-design

    忙着开发软件,最近一直没什么时间写作。 今天我们谈一下关于分布式文件系统。 分布式文件系统在一直在存储领域拥有举足轻重的地位,涉及知识也比较多。 主流分布式系统设计,主要分为三个方向: [1] 分布式存储系统 [2] 分布式计算系统 [3] 分布式管理系统 今天我们...

    • hdfs
  • first-class-support-long-running-services-apache-hadoop-yarn

    介绍 Apache Hadoop Yarn 做为一个大数据领域(Apache Hadoop Yarn)通用的资源管理平台而闻名,它提供复杂的集群资源管理和调度服务,从中高度抽象出通用业务逻辑,从而让更多的计算框架专注于计算本身,通过他提供的高度抽象的接口,轻松的运行任务在YARN中。 除...

    • YARN
  • BigData-Ecosystem-technology-development-in-2017

    回往,我从事大数据行业已经第5年了。 可以说,从大数据非常技术,很难商业化,到今天各种各样的大数据创业公司井喷式发展。 2017年,非常特殊,已经有人开始唱衰Hadoop 而此时,人工智能AI,开始在国内外大肆炒作,这样的场面何其相似。 2007年,Hadoop面世,2009年国内...

    • 2017
  • Performance-optimizations-in-Apache-Impala

    前几天, ApacheImpala 社区发布了性能优化的一个topics,干货慢慢,我第一次见到的完整Impala整体的侧重优化和架构设计权衡的Slide。 去年底, ApacheImpala 已经成为Apache顶级项目,我还写文章介绍过,做为企业级SQL on Hadoop解决方案,已经大...

    • Impala
  • hdfs-fuse-faild

    集群规模几百台,每天有大量的MR任务在并行跑流程。主要业务做图片流数据解密计算生成高清图像。 随着集群使用的时间增长,发现集群越来越缓慢,甚至集群压力特别大的时候,导致操作系统莫名重启。 每天都会有6~8台无规律的操作系统压力过大重启。 排查时间和周期都非常的长,用了长达1个月...

    • fuse
  • apache-impala-is-now-a-top-level-apache-project

    在2017年11月28日,上午,apache宣布Impala晋升为apache顶级项目,这一令人振奋的消息。 五年前,cloudera计划开发一个全新的SQL引擎Apache Impala(这是第一个最快的Hadoop开源MPP SQL引擎),Impala融入了几十年来关系型数据库研究...

    • Impala
  • about-ambari-new-feature

    Ambari 2.5 的新功能 Ambari 2.5,我们的专注点是继续提高日常Hadoop集群的运维和管理工作,Ambari整个社区都在努力让Ambari更加智能化易用的提供Hadoop集群的运营。Ambari 2.5 做出的重点改进如下: Service Management ...

    • ambari
  • Enterprise-BigData-platform-deployment-guide-part-4

    集群的安装方式选择Ambari来进行自动化安装,目前Ambari是开源的大数据管理工具,而HDP是不开源。Ambari做为Apache顶级项目支持可插拔的管理各种不同的大数据发行版,每个公司有技术能力都可以做一个大数据版本,让Ambari进行管理,所以说Ambari其实是支持多平台的一款大数据自动...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-3

    集群设计主要为了说明几个比较实用的分布式软件安装过程中角色分配问题,不同的角色所在机器磁盘划分的主意事项。 角色分配 由于您选择使用Ambari Manager进行集群的自动化部署方式,下面图表显示了在大多数集群的安装时合理化的角色划分方式。 在较大的集群(超过100+个节点...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-2

    各位,今天我们主要聊一下,集群安装前需要做的准备工作,内容会以HDP做为案例,进行相关的规划和设计工作,经验是通用了,适用于各种大数据发行版。 我的画风一直比较严肃,哈哈,其实我是一个很喜欢搞怪的,感觉写程序傻了。 今天这个内容啊,主要还是围绕集群实施安装过程,非常关键的环节环境准备阶段,...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-1

    企业级大数据平台部署实施参考指南,截止目前我设计实现的集群已经几十个了,集群规模从几台到上千台的规模,主要是一些规范和经验吧,记录一下避免遗忘,今天我们聊集群硬件配置。 机架 操作系统版本CentOs6.8,用户名root,密码123456. 在集群安装前,需要收集集群的网络...

    • hadoop
  • write-data-to-HDFS-via-NFS-gateway-failed

    今天我们聊NFSGateway,近期真的是忙得不可开交,在构建100个节点集群的时,由于一些特殊的业务需求需要使用NFS-Gateway或者HDFS-fuse功能,把HDFS分布式文件系统挂在到某些机器上,可以通过访问Linux本地文件系统操纵HDFS中的数据,这就是类似传统的 NFS 文...

    • NFSGateway
  • apache-hive1-vs-hive2-llap-performance

    本测试硬件环境是在比较老旧的 Dell R710 机器上测试的,具体配置参考下面内容,我们在这里主要测试和探讨的是对Spark2、Hive2、Spark1、Hive1进行跑同样的TPCDS测试用例、比较它们的性能有多大差别,其中也会测一组最早期的 Hive on MR 的性能。 硬件 ...

    • Hive
  • apache-hadoop-insall

    1、 core-site.xml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 <configuration> <property> <name>fs....

    • hadoop
  • Hadoop Cluster Benchmark Performance

    基础环境 云主机 4 台 云主机类型名称 m1.xlarge-max 内存 32GB VCPU数量 8 VCPU 磁盘 50GB 操作系统版本 CentOS re...

    • Benchmark
  • HDFS & MapReduce异构存储性能测试白皮书

    title: HDFS & MapReduce异构存储性能测试白皮书 author: whoami categories: Storage tags: HDFS date: 2016-10-27 description: The Truth About MapReduce Perf...

    • hdfs
  • Configuring Heterogeneous Storage in HDFS

    Hadoop在2.6.0版本中引入了一个新特性异构存储.异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是冷热数据的存储.针对冷数据,采用容量大的,读写性能不高的存储介质存储,比如最普通的Disk磁盘.而对于热数据而言,可以采用SSD的方式进行存储,这样就能保证高效的...

    • storage
  • Running MapReduce Example Programs and Benchmarks

    When using new or updated hardware or software, simple examples and benchmarks help confirm proper operation. Apache Hadoop includes many examples an...

    • Benchmarks
  • Hive on Hbase 整合测试

    Hbase做为一个k-v查询系统,被使用在海量数据简单查询应用中。有时候会有一些复杂查询操作,需要写很多nosql的脚本或者程序!为了降低使用门槛,而sql的通用性,让大家都往sql on hbase方向发展: 1、支持友好的sql语法 2、通用型的odbcjdbc接口 3、对接...

    • HbaseSQL
  • 分布式大数据多维分析(OLAP)引擎Apache Kylin安装体验

    Apache Kylin旨在减少Hadoop在10亿及百亿规模以上数据级别的情况下的查询延迟,目前底层数据存储基于HBase,具有较强的可伸缩性。 环境依赖 hadoop-2.7.1 hbase-1.1.5 apache-hive-2.0.1-bin 配置环境变量...

    • kylin
  • Hadoop Native Libraries Guide

    hadoop Native Shared Libraries 使得Hadoop可以使用多种压缩编码算法,来提高数据的io处理性能。不同的压缩库需要依赖到很多Linux本地共享库文件,社区提供的二进制安装包,默认没有支持snappy这样在生产中最常用的压缩格式。而且社区没有提供64位的二进制安装包,...

    • hadoop
  • Hive on Spark 整合测试

    根据官方给出的文档,进行编译打包,需要注意的是,”Hive on Spark is available from Hive 1.1+ onward,It is still under active development in “spark” and “spark2” branches, and ...

    • SQL
  • zeppelin install

    Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。 本文,介绍zeppelin 编译安装...

    • zeppelin
  • Hadoop issue collections

    整理在工作中遇到的Hadoop平台遇到的报错信息,以及解决思路。 问题1:基于Yarn统一资源管理平台配置导致 错误信息: Application application_1458180019333_0002 failed 2 times due to AM Container ...

    • hadoop
  • sqoop 自动化脚本

    Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS,NOSQL中,也可以将HDFS的数据导进到关...

    • sqoop
  • Hadoop平台架构--硬件篇

    还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机 学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉及到硬件资源,网络规划,操作系统,软件栈等一系列问题!对于一个没有经...

    • hadoop
  • Hadoop平台架构--存储篇

    刚刚开始使用Hadoop集群的时候,目录没有有个规范,大家都根据自己的喜好 创建各种不同的目录,权限控制也没有开启,随着应用越来越多,使用的人员也 多了起来,导致目录混乱,终于在新规划集群的时候,对目录做了规范和权限控制. 下面简单介绍一下我们HDFS目录规范和HDFS存储规划,写在Hado...

    • hadoop
  • Hbase-Region-split-policy

    hbase-1.0简介 在 HBase 中,Table 被横向划分为 Region,它是一段数据的管理者,Region 被分发到 RegionServer 上进行管理,一个 Region 只被一个 RegionServer 管理,它的数据存储在 HDFS 上,是可以有多个副本的。 也就是...

    • hbase
  • Apache-Cassandra-Cluster

    简介: Cassandra 是一个分布式的存储引擎,用来管理分布在大量普通商用级别服务器上面的海量的结构化数据,可以提供高可用性,不存在单点故障。Cassandra设计目标,是运行在千台规模的服务器节点上面,节点可以跨越IDC.在这个规模上,大小组件都会频繁的发生故障。当故障发生时,Cass...

    • cassandra
  • hdfs-balancer均衡器使用

    简介 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添 加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好 地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等 等。可见,保证HDFS中的...

    • hdfs
  • set hive-map-sum for hive

    1、增加map数量 首先调整上一步reducer生成文件数据,下面可以把reduce设置为160,即生成160个文件 set mapred.reduce.tasks=160; create table test as select * from temp distribute by rand...

    • Hive
  • building hadoop for centos

    1、获取hadoop源码 1 wget http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0-src.tar.gz 2、编译hadoop所需环境 # tar -zxvf h...

    • hadoop
  • yarn-resources-manager-allocation

    Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。 在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManage...

    • YARN
  • presto-use

    简介 Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随...

    • SQL
  • tez-use

    为了更高效地运行存在依赖关系的作业(比如Pig和Hive产生的MapReduce作业),减少磁盘和网络IO,Hortonworks开发了DAG计算框架Tez。Tez是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduceR/Pig/Hive等系统的底层数据处...

    • Tez
  • alluxio-dev

    1、获取tachyon源码 1 git clone git@github.com:amplab/tachyon.git 2、tachyon的编译支持hadoop2.2.0 $ cd tachyon $ mvn clean package -Dja...

    • alluxio
  • Hbase Distibuted Install

    HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类...

    • hbase
  • sqoop 常用脚本整理

    Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS,NOSQL中,也可以将HDFS的数据导进到关...

    • sqoop
  • sqoop install

    1.安装 对应hadoop版本下载,目前我们使用的是hadoop2.x版本 wget http://mirrors.cnnic.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 我们使用的版本是s...

    • sqoop
  • spark manual

    集群概述 本文章涉及spark安装部署,spark-sql,spark-shell,streaming等等的应用demo… saprk文章 部署过程详解 Spark布置环境中组件构成如下图所示。 Driver Program 简要来说在spark-shell中输入...

    • spark
  • hive install

    1、安装mysql-5.5 ** From server2 (1)、rpm包安装mysql 1 2 3 4 5 6 # rpm -qa | grep mysql [查询是否自带mysql] # rpm -e mysql-libs-5.1...

    • Hive
  • apache-hadoop-自动HA的搭建

    1、 core-site.xml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 <configuration> &lt...

    • hadoop
  • HiveServer2-JDBC中文支持

    1 2 3 4 5 6 7 8 export LANG=en_US.UTF-8 export HADOOP_OPTS="$HADOOP_OPTS -Dfile.encoding=UTF-8" [hsu@yndx-b...

    • Hive
  • hive各种调优设置

    Hive的各种调优设置 1、reduce个数 1 2 3 4 5 .hive.exec.reduces.bytes.per.reducer .mapred.reduce.tasks=-1 CDH5: hive (default)>...

    • Hive
  • Hadoop benchmarks

    一. Hadoop基准测试 Hadoop自带了几个基准测试,被打包在几个jar包中。本文主要是cloudera版本测试 1 2 3 4 5 [hsu@server01 ~]$ ls /opt/cloudera/parcels/CDH-5.2.0-1...

    • Benchmarks
  • apache hadoop federation配置

    节点分配 ns1的namenode:server01 ns2的namenode:server02 datanode:server03,server04 3.1 配置文件(hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-si...

    • hadoop
  • zookeeper 大量logs解决

    我们经常会遇到有大量zookeeper的日志,我们该如何处理,要么删除,要么禁止输出,这两种该如何实现?我讲两种方法: 方法一:日志清除工具PurgeTxnLog zookeeper运行时间长了以后,日志会成为一个比较大的问题。比如作者压力测试hbase 一周以后,zookeeper...

    • zookeeper
  • zookeeper cluster deploy

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原 语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是 hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使 用锁机制,以及基于消息的协调机制...

    • zookeeper
  • HDFS_NFS_Gateway

    1、mount hdfs,关闭 linux自带的几个和 hdfs需要启动冲突的服务 参考: (1) service nfs stop and service rpcbind stop (2) hadoop portmap or hadoop-daemon.sh start po...

    • hdfs
  • memcached_doc

    Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态、数据库驱动网站的速度。Memcached基于一个存储键/值对的hashmap。其守护进程(daemon )是用C写的,但是客户端可以用...

    • MemDB