WHOAMI
Xu Jiang
技术人的日常.
  • Tensorflow-on-apache-hadoop-yarn

    现在人工智能正处于风口浪尖,大数据和人工智能注定要融合,如何融合,以什么方式融合? 如今大家都在探索阶段,每个技术型的公司,都有自己的人工智能与大数据融合的方案。 今天,我们就来介绍一下,大数据领域最核心的Apache Hadoop和人工智能技术融合进展。 今天我们介绍Apache Y...

    • ML
    • 2018
  • Parquet-library-fatal-error

    parquet-Hadoop 1.9.0 大量close-wait问题。 一个开源基础库引发的严重产品事故,整个事件场内block超过4小时以上。 我们某服务部署上线,界面化的DAG任务,主要跑机器学习全流程作业,运行一段时间,发现后端数据平台查询、预览数据功能全部不可用,导致大量上游业务...

    • Parquet
  • Homemade programming language

    很长一段时间没更新内容啦,并不是不想写,而是找不到灵感,不知道改写些什么? 因为,我写了很多大数据相关的内容,很久已经没有玩Hadoop相关的东西啦。 除最近,帮助公司搭建了一套CDH集群,基本也是大家在上面跑一些大数据量的AI算法。 而我,最近在写一些Java后端以及需求整理的工作,...

    • 2018
    • Programming
  • Cloudera-Enterprise-6

    今天,我们聊一聊在中国最受欢迎Cloudera CDH,CDH是世界级的大数据产品,同时也是一家伟大的开源软件公司。 接着上期的话题,聊一聊 Cloudera Enterprise 6.0 的新特性。 Cloudera CDH以下简称CDH,CDH做为企业级的大数据产品,一直以稳定可靠,小...

    • cloudera
    • 2018
  • Hortonworks Data Platform 3.0.0平台宣布正式GA

    HDP 3.0.0 GA Hortonworks Data Platform 3.0.0版本,基本上集成Hadoop社区生态最新版本的强大功能特性,实现真正混合型数据平台。 如图,HDP 3.0.0 版本核心功能特性。 我们上篇,其实就介绍了大数据数据平台发展的几个方向,而H...

    • hortonworks
    • ambari
  • Micro-service architecture based on restful

    经过2个多月的研发周期,上周六发布了关于AI赋能的数据平台的产品。 最近码子频率低很多,天天码代码。衰~ 今天,我们来谈谈微服务架构。 微服务架构,所有服务基于restful相互访问,部署模式全容器化,k8s进行调度。 从整体来看,这样的设计符合目前服务容器化的大趋势,我们一路采坑...

    • 2018
    • Micro-service
  • Why Spark RDD

    我提出的论文计划,一再被打乱,我也在找机会慢慢调整过来。 今天,我们聊一聊Spark,我第一次在工作中使使用spark是0.9版本,当时是试用Spark来做OLAP Cube模型,那个时候的SparkSQL称为 Shark ,历史原因,spark 1.0以后的版本被SparkSQL取代,sha...

    • 2018
    • Spark
  • Macbook打造舒适的个人工作空间?

    我们以前有介绍过为新购MacBook Pro配置开发环境,通过软件提高工作效率。 今天我们来谈谈,把MacBook Pro做为主力开发机器,需要做哪些工作。 开发者,大多时间都是坐着,工作空间非常重要的一点是舒适度、个人健康。 一切都是为了更好。 作为一个天天盯着屏幕,敲击键盘...

    • mac
  • How does the program run

    我曾计划通过阅读论文和经典计算机书籍,来深入理解计算机科学技术。我最近在看的一本《程序是如何跑起来的》,整本书对于刚入门计算机和有经验的工程师,都非常有帮助。 如果你想了解,计算机基本原理,操作系统、程序是如何与硬件结合运行起来,解决实际问题,那么这本书特别合适,而且整本书通俗易懂,作者意在通...

    • 2018
    • program
  • MacBook Pro开发环境配置指南

    本文章主要记录新购Mac,需要安装的必备软件,由于有多台Mac,用途不一样。 公司主力开发电脑 家中主力开发电脑 公司主力开发电脑,主要功能是开发公司软件研发有关。而且有一些私有的东西,需要符合公司规范。 家中主力开发电脑,主要参与开源社区开发以及个人创作,涉及社区和个人创...

    • Mac
  • Why REDOOP ?

    太多不舍,一切来不及道别。 千言万语,感恩。 我准备先整理一番,仪式感,做个笔记,绘制成图。 First 一直做2B市场,因为有经验,整体项目的阶段、时机和推进拥有更好的判断。 Two mini company 缺资源,所以你需要是一个多面手,能处理各...

    • 2018
    • life
  • bigtable-osdi06

    简介 BigTable是Google提出的一个分布式的海量数据存储系统。Google将其运用在一些数据量较大的应用中。从分布式系统CAP角度理解,BigTable是牺牲高可用性,主要加强数据一致性和可扩展性。 早期BigTable设计主要解决,海量的网页数据存储。搜索引擎抓取的海量网页数...

    • BigTable
  • A Distributed Storage System for Structured Data

    简介 BigTable是Google提出的一个分布式的海量数据存储系统。Google将其运用在一些数据量较大的应用中。从分布式系统CAP角度理解,BigTable是牺牲高可用性,主要加强数据一致性和可扩展性。 早期BigTable设计主要解决,海量的网页数据存储。搜索引擎抓取的海量网页数...

    • bigtable
  • mapreduce-osdi04

    我曾经多次提到过,我涉猎广泛,但是没有有个精通的技能,在大数据领域几年,也没什么成果。 我开始尝试改变,未来很长一段时间注重修炼内功,是什么让我有这样的改变? 极客时间 购买《朱赟的技术管理课》, 安姐 聊到很多技术管理经验,介绍算法一节: 招式在花哨,敌不过内功深厚 。 安姐 重写了四遍...

    • mapreduce
  • distributed-file-system-design

    忙着开发软件,最近一直没什么时间写作。 今天我们谈一下关于分布式文件系统。 分布式文件系统在一直在存储领域拥有举足轻重的地位,涉及知识也比较多。 主流分布式系统设计,主要分为三个方向: [1] 分布式存储系统 [2] 分布式计算系统 [3] 分布式管理系统 今天我们...

    • hdfs
  • Minimalism-Live-a-Meaningful-Life

    2010年12月14日,乔舒亚和瑞安正式启动了自己的极简主义网站TheMinimalists.com,与此同时放弃了年薪六位数的工作。 为什么? 此书《Minimalism: Live a Meaningful Life》会提供答案。 看完以后依然记忆犹新,让生活在一线的我抓住了一丝若...

    • books
  • Nikola-Tesla-Autobiography

    借着出差苏州,在来回来的路上看完《特斯拉自传》,原名:《Nikola Tesla’s Autobiography》 特斯拉,不只是电动车;特斯拉,更是人类历史上最传奇的科学家之一。 作为电气时代最主要的奠基者之一,特斯拉创造了我们的现在(交流电、雷达等等);作为一个天才的发明家和科学家,特...

    • books
  • clickhouse-build-for-centos

    ClickHouse源码阅读环境之Centos编译,主要介绍如何在Centos7.x版本成功构建ClickHouse,生成可部署的二进制文件。 基础环境 我已经做好可以直接编译的镜像,直接pull获取镜像即可开始愉快的编译。 1 2 3 4 5 ...

    • Clickhouse
  • clickhouse-build-for-ubuntu

    ClickHouse源码阅读环境之Ubuntu编译,主要介绍如何在Ubuntu 17版本成功构建ClickHouse,生成可部署的二进制文件。 基于Ubuntu 17编译ClickHouse 获取Ubuntu 17.10版本,并且运行此版本镜像,把宿主机/data/gitlab/jdp目...

    • Clickhouse
  • clickhouse-configuration-analyse

    ClickHouse是一个分布式面向列的RDBMS系统,可以单机部署也可支持集群。目前支持Centos和Ubuntu系统的部署,并且有方和第三方都发布有RPM/DEB包,可直接安装使用。 ClickHouse仓库和包下载 Github: https://github.com/...

    • Clickhouse
  • global .gitignore

    为什么需要全局 .gitignore 通常来说,在repo中提交跟IDE相关的文件并非最佳实践,所以大多数时候会在 .gitignore 中加入IDE相关的文件pattern,然而市面上的IDE很多,不同程序员对IDE也有着自己的偏好,似乎不太可能把市面上所有的IDE都列出来。 除此...

    • Git
    • gitignore
  • clickhouse-usage-guide

    今天,我们来简单测试一下clickhouse性能,通过测试学习clickhouse基本使用。 官方教程中有直接提供相关测试案例数据,跑一些场景,我选择了 OnTime 数据来做测试。 OnTime 性能测试case由 Vadim Tkachenko 创建,安装官方文档操作。 下载...

    • MPP
  • Explore-the-MPP-architecture-through-hawq

    前言 我研究的东西面一直比较广,现在发现有些晚。目前焦距,我对分布式数据库比较感兴趣,借机深入研究,借着Clickhouse研究准备写写分布式数据库内容,加深理解。 我发现Hive/Spark/Tez/Flink使用Map Reduce来进行执行任务。 - 批处理系统 。 Impa...

    • MPP
  • clickhouse-quick-start

    Clickhouse优雅的设计,超高的性能,让我忍不住想深入研究。边研究边总结,今天,我们介绍一下clickhouse快速上手,全文涉及一些具体配置,内容略多,主要介绍几种主要的安装方式。 单机安装 容器安装 集群安装 由于目前官方没有提供RPM,默认只提供Deb包。当然也...

    • Clickhouse
  • first-time-clickhosue

    First time ClickHouse 初识ClickHouse,大概是在去年12月份,Clickhouse受邀来中国开第一次Meetup. 那天我去参加了,很多小伙伴都是被官方那页 Benchmark 吸引而来,我猜测。 让我前往参加的一个很大原因,我朋友说clickhouse挺牛...

    • Clickhouse
  • new-year-planning-for-2018

    过年,放了一个长假,人特别容易犯懒。新年计划,一推再推,今天终于腾出时间写一写。 时间匆匆,参加工作已多年,关于新年计划,我也是从去年(2017)开始有一些初步想法。 回望过去几年,发现空空如也 ? 我开始有些忐忑,深刻思考,也许每个人都需要有属于自己的作品。 去年,我产生这样的状...

    • 2018
  • The-Insanely-Great-Story-of-How-the-Mac-Was-Made

    去年底,在飞机上深度阅读了 《苹果往事:开发麦金托什的非凡岁月》 。国内重译名 《硅谷革命:成就苹果公司的疯狂往事》 ,作者亲历了整个macintosh研发过程,他通过幽默风趣的一则则小的故事,记录了整个macintosh电脑的研发过程。 打造一个跨时代的产品,其中付出了努力和艰辛,你能通过一...

    • mac
  • first-class-support-long-running-services-apache-hadoop-yarn

    介绍 Apache Hadoop Yarn 做为一个大数据领域(Apache Hadoop Yarn)通用的资源管理平台而闻名,它提供复杂的集群资源管理和调度服务,从中高度抽象出通用业务逻辑,从而让更多的计算框架专注于计算本身,通过他提供的高度抽象的接口,轻松的运行任务在YARN中。 除...

    • YARN
  • BigData-Ecosystem-technology-development-in-2017

    回往,我从事大数据行业已经第5年了。 可以说,从大数据非常技术,很难商业化,到今天各种各样的大数据创业公司井喷式发展。 2017年,非常特殊,已经有人开始唱衰Hadoop 而此时,人工智能AI,开始在国内外大肆炒作,这样的场面何其相似。 2007年,Hadoop面世,2009年国内...

    • 2017
  • Macbook-Pro-external-screen-selection

    每天,盯着一个小屏幕的Macbook Pro,近视有点严重。 我想先弄个外界屏幕,屏幕变大,缓解一下。 我开始在网上搜攻略,刚开始不太懂,知乎真的强大,一堆东西,不知道怎么选择。 选择 AOC 卢瓦尔系列 LV243XQP 23.8英寸2K高分辨率IPS ΔE<2(平均值) 10...

    • screen
  • Visual-programming-component-UI-recommendation

    2017年 JavaScript 明星项目 正如去年一样,是时候让我们来回顾 2017 年间 JavaScript 领域的变化与发展了。 我们通过对比各项目于过去 12 个月在 GitHub 上新增 Star 数量的方式,来评估其在 2017 年度的受关注程度,进而选出2017 年度 Java...

    • component
  • why-do-developers-build-personal-brands

    作者丨 Neha Batra 译者丨 Erica 打造个人品牌并不只是进行自我推销那么简单。 每个人都会有自己的故事,以下是我的故事: 大家好,我是 Neha,一名在旧金山工作的高级软件工程师。4 年前自学编程让我能够在 Pivotal 工作。我很喜欢旅行(今年已经出游了 11 次...

    • bytalk
  • github-changes-software-development

    Git是分布式代码开发的最佳选择,今天把我常用的一些Git命令给列表一下。 说起Git,就不得不提一下Github,它几乎成为一种全球最大的在线协作社区。 目前几乎最知名的大规模上生成的开源项目,基本都是在GitHub社区通过全球几十万开发者共同协作,开发完成。 比如:Hadoop、S...

    • github
  • Performance-optimizations-in-Apache-Impala

    前几天, ApacheImpala 社区发布了性能优化的一个topics,干货慢慢,我第一次见到的完整Impala整体的侧重优化和架构设计权衡的Slide。 去年底, ApacheImpala 已经成为Apache顶级项目,我还写文章介绍过,做为企业级SQL on Hadoop解决方案,已经大...

    • Impala
  • angular-ngx-admin-run-for-mac

    业余时间计划搞搞设计,最近翻阅前端资料,真是千变万化,很多新名词。 三端融合技术、前后端分离、前端也可以搞非常复杂的自动化测试、可以独立开发。 日新月异,计算机世界永恒的话题。 框架:react、angular、vue.js等。 语言:nodejs、typescripts、Java...

    • angular
  • The-strongest-terminal-in-history

    简介 捣鼓一下,Mac下的终端主题,最开始我选择的是 on-my-zsh ,非常强大,用起来基本停不下来。 通过oh-my-zsh提供的 External-themes 列表,支持多种漂亮的UI。 我选择的是 powerlevel9k ,安装还挺复杂,接下来我介绍一下。 ...

    • on-my-zsh
  • production-env-continuous-integration-platform-part-3

    简介 持续集成平台实践,接上 如何为持续集成平台选型? 。 我今天介绍软件资源的准备工作。根据选型的结果,我们接下来分步骤完成持续企业持续集成平台的实践。 Gitlab 企业级最佳代码仓库,OpenSource 。 Docker 企业级容器,高效集装箱技术。 Jforg ...

    • ci
  • How-select-continuous-integration-platform-part-2

    新的一年,开始研发新的产品。由于新团队成员,所以需要构建一套持续集成平台。 我从事的是开源软件事业,所以需要访问互联网上面大量的软件包,每天都有上百个容器的创建和销毁,一切都是为了自动化,更高效率的交付产品。让大家专注工作于正确的方向上,更快的迭代产品,专注coding,而不会被固定的流程化操...

    • ci
  • What-is-continuous-integration-part-1

    持续集成CI,在一般软件开发中,每个人在完成项目工作后开始完成整合工作。整合一般需要数周或数月时间,整合过程是非常痛苦的。持续集成是一种在早期开发阶段,每天数次的合并代码到主干,持续的进行构建、测试和集成代码。 持续集成强调开发人员提交了新代码之后,立刻进行构建、(单元)测试。根据测试...

    • ci
  • just-for-fun

    除了程序员、 黑客 ,大概很少有人知道Linux操作系统。 它的发明者 Linus Torvalds ,知道的人就更少了。 这个毫不起眼,出生于芬兰,22岁编写Linux操作系统、搅动世界风云的大学生。 一生奉献给开源软件Linux,为人非常低调,深居简出,一切为了Linux操...

    • Linus
  • Why-do-abandon-OpenStack-to-VMware-vSphere

    我为什么弃用 OpenStack 转向 VMware Vsphere ,一切皆为简单、高效。因为我们在工作过程中涉及到大量的测试工作,每天都有成百个虚拟机的创建和销毁工作。 工作任务非常繁重,我们的持续集成平台CI/CD也会大量和虚拟化平台进行交互。 早期,没有 OpenStack 的时候...

    • vmware
  • gitlab-server-move

    由于资源紧张,为了完成CI/CD的自动化,所以打算把一台128g、24c、10T存储的一台独立GitLab服务器虚拟化为多台服务器。完成持续集成平台的迁移,减少资源浪费,现在记录一下操作过程。 备份原GIT服务器数据 1 gitlab-rake gitlab:...

    • gitlab
  • hdfs-fuse-faild

    集群规模几百台,每天有大量的MR任务在并行跑流程。主要业务做图片流数据解密计算生成高清图像。 随着集群使用的时间增长,发现集群越来越缓慢,甚至集群压力特别大的时候,导致操作系统莫名重启。 每天都会有6~8台无规律的操作系统压力过大重启。 排查时间和周期都非常的长,用了长达1个月...

    • fuse
  • apache-impala-is-now-a-top-level-apache-project

    在2017年11月28日,上午,apache宣布Impala晋升为apache顶级项目,这一令人振奋的消息。 五年前,cloudera计划开发一个全新的SQL引擎Apache Impala(这是第一个最快的Hadoop开源MPP SQL引擎),Impala融入了几十年来关系型数据库研究...

    • Impala
  • the-road-ahead-video

    大家好,受学校老师的邀请,给即将毕业的同学们,讲述一下职业发展,对我个人来说也是一次职业总结的好机会。通过online的形式,给大家做个分享。今天以The road ahead为题。The road ahead表达的是“未来之路”。 内容结合作者多年的职业发展之路,介绍职业发展中的各种选择以及...

    • coding
  • Data-Warehouses-Past-Present-and-Future

    数据仓库:过去、现在和未来 欢迎来到我们全新的 ITweet Talk 系列视频和博客。我是作者,我将分享数百次咨询和部署数据平台的建议和最佳实践,这些咨询和部署是由企业客户围绕数据管理需求提出的,以支撑企业海量数据分析。下面我们深入探讨数据仓库的发展。 我经常接触数据仓库建设...

    • warehouse
  • the-road-ahead

    The road ahaed. 未来之路. 关于 杂谈《编程之路职业指导》 我们从 BILL GATES 写的一本书《The road ahead》来开启话题,该书主要讲述了个人电脑的革命以及信息化对未来的巨大影响。 阐述一个职业发展与大势(行业发展、技术趋势)...

    • ahead
  • searchdb-performance-exploration

    分布式搜索数据库产品,能满足很多企业高速检索的业务场景,海量的单表数据秒级搜索和全文检索,完全支持SQL语法,支持数据的增删改查,兼容MySQL/PostgreSQL协议,企业级分布式搜索数据库解决海量数据检索问题。 环境准备 必须修改如下相关的配置文件,不然会无法正常启动集群。 ...

    • searchdb
  • about-ambari-new-feature

    Ambari 2.5 的新功能 Ambari 2.5,我们的专注点是继续提高日常Hadoop集群的运维和管理工作,Ambari整个社区都在努力让Ambari更加智能化易用的提供Hadoop集群的运营。Ambari 2.5 做出的重点改进如下: Service Management ...

    • ambari
  • Enterprise-BigData-platform-deployment-guide-part-4

    集群的安装方式选择Ambari来进行自动化安装,目前Ambari是开源的大数据管理工具,而HDP是不开源。Ambari做为Apache顶级项目支持可插拔的管理各种不同的大数据发行版,每个公司有技术能力都可以做一个大数据版本,让Ambari进行管理,所以说Ambari其实是支持多平台的一款大数据自动...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-3

    集群设计主要为了说明几个比较实用的分布式软件安装过程中角色分配问题,不同的角色所在机器磁盘划分的主意事项。 角色分配 由于您选择使用Ambari Manager进行集群的自动化部署方式,下面图表显示了在大多数集群的安装时合理化的角色划分方式。 在较大的集群(超过100+个节点...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-2

    各位,今天我们主要聊一下,集群安装前需要做的准备工作,内容会以HDP做为案例,进行相关的规划和设计工作,经验是通用了,适用于各种大数据发行版。 我的画风一直比较严肃,哈哈,其实我是一个很喜欢搞怪的,感觉写程序傻了。 今天这个内容啊,主要还是围绕集群实施安装过程,非常关键的环节环境准备阶段,...

    • hadoop
  • Enterprise-BigData-platform-deployment-guide-part-1

    企业级大数据平台部署实施参考指南,截止目前我设计实现的集群已经几十个了,集群规模从几台到上千台的规模,主要是一些规范和经验吧,记录一下避免遗忘,今天我们聊集群硬件配置。 机架 操作系统版本CentOs6.8,用户名root,密码123456. 在集群安装前,需要收集集群的网络...

    • hadoop
  • write-data-to-HDFS-via-NFS-gateway-failed

    今天我们聊NFSGateway,近期真的是忙得不可开交,在构建100个节点集群的时,由于一些特殊的业务需求需要使用NFS-Gateway或者HDFS-fuse功能,把HDFS分布式文件系统挂在到某些机器上,可以通过访问Linux本地文件系统操纵HDFS中的数据,这就是类似传统的 NFS 文...

    • NFSGateway
  • apache-hive1-vs-hive2-llap-performance

    本测试硬件环境是在比较老旧的 Dell R710 机器上测试的,具体配置参考下面内容,我们在这里主要测试和探讨的是对Spark2、Hive2、Spark1、Hive1进行跑同样的TPCDS测试用例、比较它们的性能有多大差别,其中也会测一组最早期的 Hive on MR 的性能。 硬件 ...

    • Hive
  • apache-solr-memory-tuning-for-production

    正确配置Apache Solr内存对于生产系统的稳定性和性能至关重要。在相互矛盾的目标之间找到平衡点真的很难。还需要考虑隐含的或明确的多个因素。这篇文章介绍了内存调优的一些常见任务,并指导您完成该过程,以帮助您了解如何为生产系统配置Solr内存。 为了操作简单起见,这篇文章采用在HDFS上运行...

    • solr
  • connect-tableau-druid-hive

    HIVE / DRUID INTEGRATION MEANS DRUID IS BI-READY FROM YOUR TOOL OF CHOICE 这是与Apache Hive和Druid进行超快速OLAP分析的三部分系列的第3部分。 将Tableau连接到Druid 在这之前,...

    • Druid
  • apache-hbase-medium-object-storage-mob-policies

    介绍: HBASE-11339 引入了Apache HBase介质对象存储(MOB)的功能。该功能可以提高中等尺寸值的低延迟读写访问(理想情况下,我们的测试结果是从100K到10MB),使尺寸值非常适合存储文档,图像和其他中等尺寸的对象[1]。Apache HBase MOB功能通过分离文...

    • hbase
  • spark-hbase-dataframe-based-hbase-connector

    我们非常高兴的宣告由Hortonworks和Bloomberg合作开发完成的 Spark-HBase 连接器技术预览版的发行。 Spark-HBase连接器利用Spark-1.2.0引入 Data Source API ( SPARK-3247 )。它弥合了简单的HBase Key Valu...

    • hbase
  • sparksql-ranger-column-level-security-masking

    Apache Spark引发了在大型数据集上进行数据挖掘的爆炸式增长。Spark在通用分布式计算访问中发挥了巨大的作用。任何在Python,Scala,Java和R中具有一定造诣的人都能大规模地探索数据。Spark提供ML(Machine Learning)作为一系列黑盒子,将数据科学民主化。对于...

    • spark
  • openstack系列(11)-后记

    【openstack-series】内容,本篇终章,我想说很多内容都没有涉及到,本系列就当做是公司需要做一个私有云平台的实现指导。没有很多深入剖析重要组件的内容,不过大家别着急,续集绝对有诚意的作品,[Openstack视频教程],什么时候更新,我是喜欢自由的人,时候到了,自然会通知到各位。 ...

    • openstack
  • new_apache-spark-zeppelin-hdp-2-6_enterprise_data

    任何数据值和它内部的派生值都是成正比的。因为 Data Lake Architecture ,所有的企业数据提供在一个位置。从数据湖深入驱动的关键是Apache Spark & Apache Zeppelin。两者都是预测分析和机器学习的关键工具。HDP最进发布的版本为 Spark &am...

    • HDP
  • 解密Apache Hadoop YARN Fair Scheduler Queue Basics

    在这部分的中, 我们对Fair Scheduler如何运行进行深入了解, 以及其运行原理。 在本系列的第3部分中, 为您提供了关于Fair Scheduler的一个简介, 其一是在Apache Hadoop YARN 选择 scheduler ,(另一个是Cloudera推荐的)在第4部分中,...

    • hadoop
  • 简介Apache Spark的行-列级的访问权限

    Hortonworks数据平台(HDP)的最新版本的功能为我们的客户提供了大量重大的改良,例如,现在HDP 2.6.0支持Apache Spark™2.1和Apache Hive™2.1(LLAP™)作为GA。通常客户在Hive里面存储数据,用Hive和SparkSQL分析这些数据。这种方案一个很...

    • spark
  • openstack系列(11)-平台运维

    openstack的运维方式,相对传统单机软件运维差别比较大,需要那种对大规模服务器运维的经验,自动化程度需要比较高的要求,监控报警平台也不可或缺。大型分布式系统最难的就是运维和问题的重现,这个时候日志就是最好的排除问题的方法,大部分问题只要有详细的日志记录,都能解决问题。还有一些问题就是软件自身...

    • openstack
  • openstack系列(10)-平台使用

    openstack平台使用,主要围绕着 dashboard 方面的一些操作,根据本系列之前文章的内容,安装好平台,配置要相关的软件环境,对于如何使用可能,还有些模糊。本章节介绍,openstack的平台使用。 云主机的创建 Openstack作为一个虚拟机管理平台,核心功能自然是虚拟机的...

    • openstack
  • 比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

    主题 这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域。这有助于理解它...

    • hadoop
  • openstack系列(9)-M版_云硬盘2

    Openstack系列-自动化部署完成之后,此篇文章讲解企业级私有云后端云盘存储选型。按照之前系列文章中介绍的openstack集群安装之后,系统自带一个基于lvm vloume的cinder存储。 Dependencies 1 2 3 4 [root@...

    • openstack
  • openstack系列(9)-M版_云硬盘1

    Openstack系列-自动化部署完成之后,此篇文章讲解企业级私有云后端云盘存储选型;OpenStack 存储组件cinder,swift,glance的区别和应用场景? Swift——提供对象存储 (Object Storage),在概念上类似于Amazon S3服务,不过swift具有很强...

    • openstack
  • 如何在新版Apache Hadoop中使用HDFSIntra-DataNode磁盘均衡器

    目前HDFS包含了(在CDH 5.8.2 及更高版本)一个综合的容量管理存储方法,该方法用于跨节点移动数据。 在HDFS内部,数据节点将数据块分布在本地文件系统目录中,该本地文件系统目录被指定用于dfs.datanode.data.dir in hdfs-site.xml. 在不同的设...

    • hadoop
  • 宣布Apache Hive 2查询性能提升25倍以上

    Apache Hive 2.1发布于一个月以前, 这是一个回顾Hive2如何彻底改变Hadoop 上的SQL 引擎的机会。 Hive 有很多新的改变,很难说具体的亮点, 但是以下有几个: Hive LLAP的交互式查询,Hive 2.0就介绍了LLAP,LLAP 在Hive 2.1得...

    • Hive
  • Apache Hive vs Apache Impala Query Performance Comparison

    Apache Hive 2.0 是100%开源软件,而社区也在不断驱动Apache Hive 2.0的革新,LLAP更是真实地将快速分析提升到一个新的水平。它使得客户在不需要追加基于SQL的分析工具就可以执行次秒级的交互式查询,能够快速迭代分析,还提供了非常重要的价值转换。 今天尝...

    • Impala
  • openstack系列(8)-M版_扩容节点

    Adding a compute node Expanding your single-node OpenStack cloud to include a second compute node requires a second network adapter, if you want t...

    • openstack
  • openstack系列(7)-M版_云主机

    openstack M版本之后,可视化程度越来越高,曾经网络配置,用户创建,管理等功能全都是后台命令行操作生成,现在全都是可视化操作,现在开始我们揭开云主机神秘的面纱吧。 官方镜像 镜像是云主机最基础的依赖,没有镜像就无法创建云主机。跟没有操作系统安装软件包,就无法安装操作系统是一样的道...

    • openstack
  • openstack系列(6)-M版_网络配置

    OpenStack网络(neutron)管理您OpenStack环境中虚拟网络基础设施(VNI)所有网络方面和物理网络基础设施(PNI)的接入层方面。OpenStack网络允许租户创建包括像 firewall, load balancer 和 virtual private network (VP...

    • openstack
  • openstack系列(5)-M版_快速部署

    我们通过 Packstack 来自动化安装openstack机器,Packstack主要是由Redhat推出的用于概念验证(PoC)环境快速部署的工具。Packstack是一个命令行工具,它使用Python封装了Puppet模块,通过SSH在服务器上部署OpenStack。 必备条件 ...

    • openstack
  • openstack系列(4)-基础环境

    主要介绍openstack需要依赖的环境和网络配置信息,使用静态IP地址,vmware桥接模式。 一台服务器虚拟4个虚拟机,服务器配置信息如下: 24核心、CPU x5650*2、32G内存、240G SSD,2TB硬盘. openstack主机配置信息 ...

    • openstack
  • openstack系列(3)-架构规划

    随着虚拟机技术的发展,企业环境云化对于增强企业级应用开发,核心竞争力有非常大的好处。 对于内部,每个人都有机会拥有独立的开发调试环境,整个公司开发应用,测试,上线等内容都云化,可以便利开发人员,运维人员,节省成本,长远发展来看,可以帮助企业自动化软件架构,实现自动化系统的构建。节省运营,开发,维护...

    • openstack
  • openstack系列(2)-架构设计

    OpenStack 是开源云计算平台,支持多种虚拟化环境,并且其服务组件都提供了 API接口 便于二次开发。 OpenStack通过各种补充服务提供基础设施即服务 Infrastructure-as-a-Service (IaaS) 的解决方案。每个服务都提供便于集成的应用程序接口 Ap...

    • openstack
  • openstack系列(1)-Kvm虚拟化技术

    KVM(Kernel-based Virtual Machine的英文缩写)是内核内建的虚拟机。有点类似于 Xen ,但更追求更简便的运作,比如运行此虚拟机,仅需要加载相应的 kvm 模块即可后台待命。和 Xen 的完整模拟不同的是,KVM 需要芯片支持虚拟化技术(英特尔的 VT 扩展或者 AMD...

    • openstack
  • 怎么备份和灾难复原Apache Solr (part 1)

    Cloudera Search(是Apache Solr和 Apache Hadoop 生态系统的集成)现在对Solr Connections 支持(作为5.9版本)备份和恢复 。 在这篇文章中我们将讨论在Cloudera Search 内部备份的基本知识和灾难恢复能力。下一篇文章中我们将讨论...

    • solr
  • Itweet-boot个人网站系统-快速启动

    简介 Itweet-boot 英文含义推文,博客,我很早就以itweet.cn写博客,使用过hexo等很多优秀的静态博客系统,但是始终 找不到一款我自己合心意的博客系统,所以就诞生了itweet-boot项目。 Itweet-boot 使用高效率Web开发框架spring boot开发...

    • itweet
  • 10GE-Hadoop-Network-Designs

    10G 的Hadoop有什么意义呢?你会怎么设计集群呢?我们一起讨论一下适合或者不适合10G Hadoop的案例,然后看看怎么对10G集群进行网络的设计。如果你想快速开启10G Hadoop或升级, 基于Hadoop集群和网络请认真阅读这篇文章然后再回过头来思考。 1G Hadoop集群背...

    • Network
  • Itweet-boot个人网站系统-开源

    Itweet-boot itweet.cn 个人网站系统 Itweet-boot 英文含义推文,博客,我很早就以itweet.cn写博客,使用过hexo等很多优秀的静态博客系统,但是始终 找不到一款我自己合心意的博客系统,所以就诞生了itweet-boot项目。 I...

    • itweet
  • apache-hadoop-insall

    1、 core-site.xml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 <configuration> <property> <name>fs....

    • hadoop
  • Machine-Learning-7

    机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法创新,即在面对新数据时,其自身能够发生演化。 在某种程度上,机器学习与数据挖掘很相似。它们都是通过数据来获取模式。然而,与人类可理解的...

    • ML
  • ubuntu ambari development

    ubuntu for sublime-test-3 install 1 2 3 4 5 6 sudo add-apt-repository ppa:webupd8team/sublime-text-3 sudo apt-get update...

    • ubuntu
  • Moving the Ambari Server

    Moving the Ambari Server To transfer an Ambari Server that uses the default, embedded, PostgreSQL database from one host to a new host, use t...

    • ambari
  • Hadoop Cluster Benchmark Performance

    基础环境 云主机 4 台 云主机类型名称 m1.xlarge-max 内存 32GB VCPU数量 8 VCPU 磁盘 50GB 操作系统版本 CentOS re...

    • Benchmark
  • SpringBoot 开篇介绍

    本文主要记录,MySQL在Mac下的绿色安装方式,原因是最近在折腾springboot,并且利用springboot开发一款前端交通出行地图的web应用。使用springboot来进行敏捷开发,如果您曾经是一位Javaweb开发人员,那么你绝对不容错过springboot,他能让你专注业务内容实现...

    • Boot
  • Kafka Storm HDFS Architecture Design

    Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比较简单,实际编程开发起来相对容易。下面,简单介绍编程实践过程中需要理解的Storm中的几个概念: Topology Storm中Topology的概念类似Hadoop中的MapReduce Job,是用来编排容纳一...

    • Stream
  • 论读书之艰

    从此放下了书本。犹记得在校的时候天天手捧纸质书看个浑天暗地的生活,今天,再回首,往事回眸。 生活在一线,每天忙碌,手机,电脑,各式各样的屏幕,快阅读,各种各样的互联网知识冲击,让人很难静下心来好好的看一本书。 曾经想看遍一整个图书馆的豪气,随着时间的流逝,随着我看世界而消失在风雨里。 ...

    • talk
  • Downloadonly plugin for yum

    There are two ways to download a package without installing it. One is using the “downloadonly” plugin for yum, the other is using “yumdownloader” ...

    • Downloadonly
  • HDFS & MapReduce异构存储性能测试白皮书

    title: HDFS & MapReduce异构存储性能测试白皮书 author: whoami categories: Storage tags: HDFS date: 2016-10-27 description: The Truth About MapReduce Perf...

    • hdfs
  • skynet development for mac

    大型分布式监控软件-skynet Python Dev 在Mac下面通过BrewHome来安装 Python Dev 环境,安装完成之后,调整系统环境变量,由于Mac Terminal我试用了(oh my zsh)[ https://jikelab.github.io/tech-l...

    • skynet
  • Nexus Repository Manager

    搭建nexus私服,功能我就不一一列举了。好处多多。我这里选择一个openstack云主机来演示,如何通过docker这样的技术,以非常优雅的方式,自动安装好企业内部的私服服务器! 云主机信息 云硬盘:Disk /dev/vdb: 1073.7 GB, 1073741824000 by...

    • nexus
  • Kubernetes Use Persistent Storage

    It’s necessary to use external storage if you’d like to use Persistent Data. For exmaple, Create a Pod with mounting external storage which is mapp...

    • kubernates
  • kubernetes-create-pods

    根据前一篇文章,安装好kubernetes集群,集群正常在运行,下面开始创建pods吧! 你可以选择,从github下载kubernetes源码,切换到kubernetes/examples/guestbook参考 官网文档 搭建一个完整的应用来验证集群的基本功能。 1 2 ...

    • kubernates
  • kubernetes-cluster-install

    Install Kubernetes which is the Orchestration System for Docker Containers. For example, Configure Kubernetes Cluster with 1 Admon Node and 3 Contain...

    • kubernates
  • 如何在CentOS上安装配置ownCloud

    据其官方网站,ownCloud可以让你通过一个Web界面或者WebDAV访问你的文件。它还提供了一个平台,可以轻松地查看、编辑和同步您所有设备的通讯录、日历和书签。尽管ownCloud与广泛使用Dropbox非常相似,但主要区别在于ownCloud是免费的,开源的,从而可以自己的服务器上建立与Dr...

    • owncloud
  • ownCloud 基本介绍

    ownCloud 是一个自行托管的开源文件同步和共享服务器。就像“行业老大” Dropbox、Google Drive、Box 和其他的同类服务一样,ownCloud 也可以让你访问自己的文件、日历、联系人和其他数据。你可以在自己设备之间同步任意数据(或部分数据)并分享给其他人。然而,o...

    • owncloud
  • Docker Install for centos 7

    Install Docker which is the Operating System-Level Virtualization Tool, which automates the deployment of applications inside Containers. [1] Insta...

    • docker
  • Docker Install Guide

    使用docker已经有1年多了,打算写一个系列,不知道能坚持吗?我太懒,只当为自己纪录吧!这一篇为docker基本使用文档! Docker 是一個開源專案,誕生於 2013 年初,最初是 dotCloud 公司內部的一個業餘專案。它基於 Google 公司推出的 Go 語言實作。 專案後來加入...

    • docker
  • openstack image guide

    介绍 在你拥有虚拟机镜像(也有人叫”虚拟器件”)之前,你的 OpenStack 计算云不太有用,这个指南描述了如何获取,创建以及修改 OpenStack 兼容的虚拟机镜像。 为了简化,有时文档使用 “镜像” 代替 “虚拟机镜像” 。 虚拟机镜像是什么? 一个虚拟机镜像是一个文件,...

    • openstack
  • Configuring Heterogeneous Storage in HDFS

    Hadoop在2.6.0版本中引入了一个新特性异构存储.异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是冷热数据的存储.针对冷数据,采用容量大的,读写性能不高的存储介质存储,比如最普通的Disk磁盘.而对于热数据而言,可以采用SSD的方式进行存储,这样就能保证高效的...

    • storage
  • Running MapReduce Example Programs and Benchmarks

    When using new or updated hardware or software, simple examples and benchmarks help confirm proper operation. Apache Hadoop includes many examples an...

    • Benchmarks
  • Hive on Hbase 整合测试

    Hbase做为一个k-v查询系统,被使用在海量数据简单查询应用中。有时候会有一些复杂查询操作,需要写很多nosql的脚本或者程序!为了降低使用门槛,而sql的通用性,让大家都往sql on hbase方向发展: 1、支持友好的sql语法 2、通用型的odbcjdbc接口 3、对接...

    • HbaseSQL
  • 分布式大数据多维分析(OLAP)引擎Apache Kylin安装体验

    Apache Kylin旨在减少Hadoop在10亿及百亿规模以上数据级别的情况下的查询延迟,目前底层数据存储基于HBase,具有较强的可伸缩性。 环境依赖 hadoop-2.7.1 hbase-1.1.5 apache-hive-2.0.1-bin 配置环境变量...

    • kylin
  • Hadoop Native Libraries Guide

    hadoop Native Shared Libraries 使得Hadoop可以使用多种压缩编码算法,来提高数据的io处理性能。不同的压缩库需要依赖到很多Linux本地共享库文件,社区提供的二进制安装包,默认没有支持snappy这样在生产中最常用的压缩格式。而且社区没有提供64位的二进制安装包,...

    • hadoop
  • Hive on Spark 整合测试

    根据官方给出的文档,进行编译打包,需要注意的是,”Hive on Spark is available from Hive 1.1+ onward,It is still under active development in “spark” and “spark2” branches, and ...

    • SQL
  • openstack-issue

    openstack 生产环境问题纪录。 1、horizon “router_gateway DOWN” horizon 页面路由显示信息 “router_gateway DOWN”,路由-》接口-》外部网关-》状态:停止 | 默认:创建 初步认定是openstack的...

    • openstack
  • Private Cloud personal workstation

    DIY个人工作站,终于开始投入使用了,在做虚拟化的时候遇到了一些小问题,纪录一下! 主机到手之后,各种性能测试,各种安装系统各种折腾了一把,发现兼容性良好,没啥大问题,没崩万幸。 后续终于确定使用一款操作系统,但是为了方便演示企业级环境,我弄了vmware产品,启动时提示如下: ...

    • DIY
  • zeppelin install

    Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。 本文,介绍zeppelin 编译安装...

    • zeppelin
  • Books

    转载内容,很同意很多观点 本文仅代表作者一家之言,欢迎讨论,拒绝撕逼——尼古拉斯·小Q 中国技术开放日的出海团对日本进行了为期一周的访问。笔者随行了头两天,参加Slush Asia大会,并访问了Gungho和Deloitte两家企业。虽然已经在日本生活了四年,但这样的体验却甚少,对...

    • code
  • Openstack Instance Compute Node change resizeing

    Resize a Running Instance on a Single Compute Node One can resize a running instance in OpenStack by running the following nova command: nova resize ...

    • openstack
  • jenkins-install

    Jenkins是基于Java开发的一种持续集成工具,用于监控持续重复的工作,功能包括: 1、持续的软件版本发布/测试项目。 2、监控外部调用执行的工作。 Jenkins-install For linux 1 2 3 4 5 6 7...

    • jenkins
  • OpenStack Storage cinder-swift-glance Part2

    Swift——提供对象存储 (Object Storage),在概念上类似于Amazon S3服务,不过swift具有很强的扩展性、冗余和持久性,也兼容S3 API Glance——提供虚机镜像(Image)存储和管理,包括了很多与Amazon AMI catalog相似的功能。(Glance的后...

    • openstack
  • Openstack Maitaka automation deployment Part1

    OpenStack是IaaS(基础设施即服务)组件,让任何人都可以自行建立和提供云端运算服务。 此外,OpenStack也用作建立防火墙内的“私有云”(Private Cloud),提供机构或企业内各部门共享资源。 OpenStack很可能在未来的基础设施即服务(IaaS)资源管理方面占据领导...

    • openstack
  • 学习新东西的唯一方法(Live)

    whoami : 非常喜欢此文中的大部分观点,收藏,值得回顾品味。。。 正文: 有人曾从我工作的一家公司盗取了9千万美元。我不太懂得如何观人识人。这家公司最终关门了。 有一些事情我就是学不会。我很容易相信一个人。 因此,无论我如何尝试,判断一个人对我来说,简直太难了...

    • Live
  • Coding List

    各种语言的coding代码,放到github上面,不算是什么大型开源项目也没有很好的组织在一起,比较凌乱,给这个世界增加垃圾了. JAVA Distributed SQL-on-Hadoop Query GUI: https://github.com/itweet/bigtable...

    • coding
  • 论自学的态度

    whoami : 非常喜欢此文中的大部分观点,收藏,值得回顾品味。。。你想当程序员? Peter Norvig任职于Google,其职位是研究主管(Director of Research). Peter Norvig是享誉世界的计算机科学家和人工智能专家。他是 AAAI 和 ...

    • Live
  • linux for Desktop

    由于集群在安装的时候,选择最小化min安装方式,而且自定义选择安装的libary。而没有选择安装图形化界面,这样在实际生产环境中是推荐的方式。完全基于terminal方式管理Linux服务器。 但是,某些特殊时期,需要通过图形画界面进行一些特殊的操作,比如我遇到的,需要在Linux服务器中安装一个...

    • desktop
  • 安装并且优化centos 6 系统 Supper Hadoop

    1、系统安装类型选择及自定义额外包组 进入如图 1-1 所示界面。 上半部分是系统定制的不同的系统安装类型选择项,默认是 “ Desktop”,这里我们选择“ Minimal”,即最小化安装,下半部分是在上面系统安装类型确 定后, 额外想添加的软件包组选择项,我们选择“ Customiz...

    • centos
  • Gitlab 安装配置

    GitLab 是利用 Ruby on Rails 一个开源的版本管理系统,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目。它拥有与Github类似的功能,能够浏览源代码,管理缺陷和注释。可以管理团队对仓库的访问,它非常易于浏览提交过的版本并提供一个文件历史库。团队成员...

    • git
  • 企业级开发平台持续集成自动化架构设计

       近期变动比较大,离职了,拒了几个大企业offer;选择加入了一家非常有前景的创业公司,很多人不理解,虽然入职时间不长,但是和大公司比较真的非常有意思,虽然辛苦一些,但是能学到不少东西,让我对大数据创业有了更多新的认识,甚至完全颠覆我曾经的一些想法,真的非常棒;好了,到此为...

    • tools
  • 我的X档案 - 新的希望

    换工作了。 转眼离开学校已经2年多,时光飞逝,一滴不剩,大学通宵研究技术的日子恍如昨日。从小对计算机痴迷的我,终于进入理想的行业,并且毕业就从事当今最热门的大数据技术。【2016.03.27 10:49随笔】 在经过2周的挣扎之后,还是决定离职了,可能是因为在一个安逸的环境中呆久了,不...

    • story
  • macbook-pro

    从零搭建和配置OSX开发环境 一直在用,ubuntu/frdora 虚拟机作为开发环境,windows系统做为日常上网系统,最近切换到mac,有些不太适应的地方,比如office开始适应苹果iWork,感觉用着不是特别顺利。除此之外,可能还要花费一些时间寻找在windows上的替代软件。幸好...

    • macbook
  • SQL on Hadoop TPCDS性能测试

    本测试,重点性能测试4个维度,测试对象为主流SQL on Hadoop性能表现,为技术选型做一些参考,由于硬件资源有限,本测试数据集比较小,前提是所有数据保证都能装载到内存. 内容还涉及到了SQL on RDBMS 和 SQL on NOSQL性能测试。对一些特殊场景的应用参考。企业级数据仓库解决...

    • tpcds
  • Impala - Hive 性能测试和查询优化

    版本信息 Hadoop 2.6.0-cdh5.4.7 impalad version 2.2.0-cdh5.4.7 hive 1.1.0-cdh5.4.7 Impala SQL 方言编写的表创建语句 CREATE EXTERNAL TABLE books( id BIGINT,...

    • Hive
  • Hadoop issue collections

    整理在工作中遇到的Hadoop平台遇到的报错信息,以及解决思路。 问题1:基于Yarn统一资源管理平台配置导致 错误信息: Application application_1458180019333_0002 failed 2 times due to AM Container ...

    • hadoop
  • Hadoop列式存储引擎Parquet-ORC和snappy压缩

    相对于传统的行式存储格式,列式存储引擎具有更高的压缩比,更少的IO操作而备受 青睐。列式存储缺点:在column数很多,每次操作大部分列的时候,cpu压力突增,而且增加处理时长。优点:在cloumn数很多,每次操作若干列的场景,列式存储的性价比,性能更高。 在很多大数据的应用场景下面,...

    • hadoop
  • sqoop 自动化脚本

    Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS,NOSQL中,也可以将HDFS的数据导进到关...

    • sqoop
  • Hadoop平台架构--硬件篇

    还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机 学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉及到硬件资源,网络规划,操作系统,软件栈等一系列问题!对于一个没有经...

    • hadoop
  • Hadoop平台架构--存储篇

    刚刚开始使用Hadoop集群的时候,目录没有有个规范,大家都根据自己的喜好 创建各种不同的目录,权限控制也没有开启,随着应用越来越多,使用的人员也 多了起来,导致目录混乱,终于在新规划集群的时候,对目录做了规范和权限控制. 下面简单介绍一下我们HDFS目录规范和HDFS存储规划,写在Hado...

    • hadoop
  • Hbase-Region-split-policy

    hbase-1.0简介 在 HBase 中,Table 被横向划分为 Region,它是一段数据的管理者,Region 被分发到 RegionServer 上进行管理,一个 Region 只被一个 RegionServer 管理,它的数据存储在 HDFS 上,是可以有多个副本的。 也就是...

    • hbase
  • Zabbix Use

    监控概述 1、主机监控 1.1 硬件 1.2 Cpu 1.3 Memory IO 2.1 Disk IO 2.2 Network IO 2、业务监控 3、故障检测分析 4、应用监控 1 2 3 ...

    • zabbix
  • redis use

    优点: 1、丰富的数据存储类型(string,list,set,zset) 2、丰富的操作方式,都是原子性! 3、支持主从同步 4、与memcached不同可持久化缓存数据 5、redis提供python,ruby,erlang,php客户端,使用方便 ...

    • redis
  • How to Install VMware Workstation 11 on CentOS 7

    This tutorial will show you how to install VMware Workstation 11 on RHEL 7, CentOS 7, Fedora 21, Debian 7 and Ubuntu 14.10/14.04. VMware Workstatio...

    • vmware
  • snmp-doc

    简单网络管理协议(SNMP),由一组网络管理的标准组成,包含一个应用层协议(application layer protocol)、数据库模型(database schema)和一组资源对象。 install snmp 1 yum list net-snmp* -y...

    • snmp
  • 恐怖的大数据

    恐怖的大数据! 某比萨店的电话铃响了,客服人员拿起电话。 客服:XXX比萨店。您好,请问有什么需要我为您服务? 顾客:你好,我想要一份…… 客服:先生,烦请先把您的会员卡号告诉我。 顾客:16846146***。 客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家...

    • story
  • gunpg-use

    GnuPG(GNU Privacy Guard或GPG)是一个以GNU通用公共许可证释出的开放源码用于加密或签名的软件,可用来取代PGP。大多数gpg软件仅支持命令行方式,一般人较难掌握。由于gpg软件开放源代码,很难隐藏后门,因此比pgp等商业软件安全。 install gnupg ...

    • gun
  • net-snmp

    Install && Use 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 [whoami@server1 ~]$ sud...

    • snmp
  • Apache-Cassandra-Cluster

    简介: Cassandra 是一个分布式的存储引擎,用来管理分布在大量普通商用级别服务器上面的海量的结构化数据,可以提供高可用性,不存在单点故障。Cassandra设计目标,是运行在千台规模的服务器节点上面,节点可以跨越IDC.在这个规模上,大小组件都会频繁的发生故障。当故障发生时,Cass...

    • cassandra
  • hdfs-balancer均衡器使用

    简介 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添 加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好 地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等 等。可见,保证HDFS中的...

    • hdfs
  • Ambari离线安装HDP-Hadoop集群

    简介 Hortonworks采用了100%完全开源策略,产品名称为HDP(Hortonworks Data Platform)。所有软件产品开源,用户免费使用,Hortonworks提供商业的技术支持服务。与CDH相比,管理软件使用开源Ambari,数据治理使用Atlas,安全组件使用Ra...

    • hortonworks
  • Apache kafka 工作原理介绍

    原文来自: http://blog.cloudera.com/blog/2014/09/apache-kafka-for-beginners/ 消息队列 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用...

    • kafka
  • 新一代Impala的优势你竟然还不知道

    新一代Impala: 更高的可靠性, 易用性和更大规模的性能提升 原文链接 http://blog.cloudera.com/blog/2015/07/whats-next-for-impala-more-reliability-usability-and-performance-at-...

    • Impala
  • set hive-map-sum for hive

    1、增加map数量 首先调整上一步reducer生成文件数据,下面可以把reduce设置为160,即生成160个文件 set mapred.reduce.tasks=160; create table test as select * from temp distribute by rand...

    • Hive
  • kafka use

    kafka是一种高吞吐量的分布式发布订阅消息系统,它有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。 高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来...

    • kafka
  • building hadoop for centos

    1、获取hadoop源码 1 wget http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0-src.tar.gz 2、编译hadoop所需环境 # tar -zxvf h...

    • hadoop
  • yarn-resources-manager-allocation

    Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。 在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManage...

    • YARN
  • presto-use

    简介 Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随...

    • SQL
  • tez-use

    为了更高效地运行存在依赖关系的作业(比如Pig和Hive产生的MapReduce作业),减少磁盘和网络IO,Hortonworks开发了DAG计算框架Tez。Tez是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduceR/Pig/Hive等系统的底层数据处...

    • Tez
  • drill-use

    Apache 软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel. Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,这使得用户能查询固定架构,演化架构,以及各种格式和数据存储中的...

    • SQL
  • mahout-engine

    Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展 的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Ap...

    • mahout
  • alluxio-dev

    1、获取tachyon源码 1 git clone git@github.com:amplab/tachyon.git 2、tachyon的编译支持hadoop2.2.0 $ cd tachyon $ mvn clean package -Dja...

    • alluxio
  • Phoenix-hbase

    phoenix,由saleforce.com开源的一个项目,后又捐给了Apache。它相当于一个Java中间件,帮助开发者,像使用jdbc访问关系型数据库一样,访问NoSql数据库HBase。 phoenix,操作的表及数据,存储在hbase上。phoenix只是需要和Hb...

    • hbase
  • Hbase Distibuted Install

    HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类...

    • hbase
  • ganglia-ubuntu

    ganglia Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。 Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如: cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过...

    • monitor
  • sqoop 常用脚本整理

    Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS,NOSQL中,也可以将HDFS的数据导进到关...

    • sqoop
  • sqoop install

    1.安装 对应hadoop版本下载,目前我们使用的是hadoop2.x版本 wget http://mirrors.cnnic.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 我们使用的版本是s...

    • sqoop
  • spark manual

    集群概述 本文章涉及spark安装部署,spark-sql,spark-shell,streaming等等的应用demo… saprk文章 部署过程详解 Spark布置环境中组件构成如下图所示。 Driver Program 简要来说在spark-shell中输入...

    • spark
  • git manual

    git使用有段时间了,个人博客也是托管到git上面,经常用到的命令放到这,主要供自己查阅使用,反复查阅能够加深印象,提升技能熟练度。如果你是还不知道 Git 是什么,建议先阅读 廖雪峰的Git教程 1、注册github账号 2、install git client wind...

    • git
  • ganglia-centos

    ganglia Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。 Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如: cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过...

    • monitor
  • hive install

    1、安装mysql-5.5 ** From server2 (1)、rpm包安装mysql 1 2 3 4 5 6 # rpm -qa | grep mysql [查询是否自带mysql] # rpm -e mysql-libs-5.1...

    • Hive
  • apache-hadoop-自动HA的搭建

    1、 core-site.xml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 <configuration> &lt...

    • hadoop
  • Cloudera-manager-installaction

    Cloudera提出了Hybrid Open Source的架构:核心组件名称叫CDH(Cloudera’s Distribution including Apache Hadoop),开源免费并与Apache社区同步,用户无限制使用,保证Hadoop基本功能持续可用,不会被厂家绑定;数据治理和...

    • cloudera
  • HiveServer2-JDBC中文支持

    1 2 3 4 5 6 7 8 export LANG=en_US.UTF-8 export HADOOP_OPTS="$HADOOP_OPTS -Dfile.encoding=UTF-8" [hsu@yndx-b...

    • Hive
  • hive各种调优设置

    Hive的各种调优设置 1、reduce个数 1 2 3 4 5 .hive.exec.reduces.bytes.per.reducer .mapred.reduce.tasks=-1 CDH5: hive (default)>...

    • Hive
  • 如何选择满足需求的SQL on Hadoop系统

    如何选择满足需求的SQL on Hadoop系统 在批处理时代,Hive一枝独秀;在实时交互式查询时代,呈现出的是百花齐放的局面。 Hive on Tez, Hive on Spark, Spark SQL, Impala等等,目前看也没有谁干掉谁的趋势。引用今年图灵奖得主Michael S...

    • SQL
  • 程序员必读的书 StackOverflow 创始人推荐

    本文最近一次更新是2015年3月份。 为什么我很少更新我的读书清单呢?因为虽然在这 10 年里,计算机一直在迅猛发展,但人始终却没有变。 为了开发出更好的软件,你需要理解人是如何工作的,这也是我推荐的这些书所关注的领域。 1.《代码大全2》 Steve McConnell所著的《代码大全...

    • Books
  • Hadoop benchmarks

    一. Hadoop基准测试 Hadoop自带了几个基准测试,被打包在几个jar包中。本文主要是cloudera版本测试 1 2 3 4 5 [hsu@server01 ~]$ ls /opt/cloudera/parcels/CDH-5.2.0-1...

    • Benchmarks
  • apache hadoop federation配置

    节点分配 ns1的namenode:server01 ns2的namenode:server02 datanode:server03,server04 3.1 配置文件(hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-si...

    • hadoop
  • linux-monitor

    cpu.pyt 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29...

    • monitor
  • zookeeper 大量logs解决

    我们经常会遇到有大量zookeeper的日志,我们该如何处理,要么删除,要么禁止输出,这两种该如何实现?我讲两种方法: 方法一:日志清除工具PurgeTxnLog zookeeper运行时间长了以后,日志会成为一个比较大的问题。比如作者压力测试hbase 一周以后,zookeeper...

    • zookeeper
  • zookeeper cluster deploy

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原 语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是 hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使 用锁机制,以及基于消息的协调机制...

    • zookeeper
  • storm 入门指南

    Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。了解 Twitter Storm、它的架构,以及批处理和流式处理解决方案的发展形势。 一、Storm安装 1、下载软件包解压 1 2 3 http:...

    • Stream
  • HDFS_NFS_Gateway

    1、mount hdfs,关闭 linux自带的几个和 hdfs需要启动冲突的服务 参考: (1) service nfs stop and service rpcbind stop (2) hadoop portmap or hadoop-daemon.sh start po...

    • hdfs
  • memcached_doc

    Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态、数据库驱动网站的速度。Memcached基于一个存储键/值对的hashmap。其守护进程(daemon )是用C写的,但是客户端可以用...

    • MemDB