Running MapReduce Example Programs and Benchmarks

When using new or updated hardware or software, simple examples and benchmarks help confirm proper operation. Apache Hadoop includes many examples and benchmarks to aid in this task. This chapter from Hadoop 2 Quick-Start Guide: Learn the Essentials of Big Data Computing in the Apache Hadoop 2 Ecosystem provides instructions on how to run, monitor, and manage some basic MapReduce examples and benchmarks.

阅读更多

分布式大数据多维分析(OLAP)引擎Apache Kylin安装体验

Apache Kylin旨在减少Hadoop在10亿及百亿规模以上数据级别的情况下的查询延迟,目前底层数据存储基于HBase,具有较强的可伸缩性。

阅读更多

Hive on Hbase 整合测试

Hbase做为一个k-v查询系统,被使用在海量数据简单查询应用中。有时候会有一些复杂查询操作,需要写很多nosql的脚本或者程序!为了降低使用门槛,而sql的通用性,让大家都往sql on hbase方向发展:

阅读更多

Hadoop Native Libraries Guide

hadoop Native Shared Libraries 使得Hadoop可以使用多种压缩编码算法,来提高数据的io处理性能。不同的压缩库需要依赖到很多Linux本地共享库文件,社区提供的二进制安装包,默认没有支持snappy这样在生产中最常用的压缩格式。而且社区没有提供64位的二进制安装包,在生产环境中一般都是x86 64位服务器,所以需要自己编译部署包。根据公司情况有一些修改的分支基础构建二进制安装包/rpm包。

阅读更多

Hive on Spark 整合测试

根据官方给出的文档,进行编译打包,需要注意的是,”Hive on Spark is available from Hive 1.1+ onward,It is still under active development in “spark” and “spark2” branches, and is periodically merged into the “master” branch for Hive.”

阅读更多

openstack-issue

openstack 生产环境问题纪录。

阅读更多

Toolbox

主要纪录一些常用或者收藏的工具,日常工具箱,长期更新。

阅读更多

Private Cloud personal workstation

DIY个人工作站,终于开始投入使用了,在做虚拟化的时候遇到了一些小问题,纪录一下!

阅读更多

zeppelin install

Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。

阅读更多

中国的程序员培训是不是有问题?

阅读更多