企业级开发平台持续集成自动化架构设计

全自动的系统,事实上减少了基础设施的团队成员,自动化减少了很多重复性工作,对企业和个人都是有非常大的好处;OpenStack|Docker|SaltStack。

阅读更多

我的X档案 - 新的希望

换工作了。

阅读更多

macbook-pro

从零搭建和配置OSX开发环境

阅读更多

SQL on Hadoop TPCDS性能测试

本测试,重点性能测试4个维度,测试对象为主流SQL on Hadoop性能表现,为技术选型做一些参考,由于硬件资源有限,本测试数据集比较小,前提是所有数据保证都能装载到内存.
内容还涉及到了SQL on RDBMS 和 SQL on NOSQL性能测试。对一些特殊场景的应用参考。企业级数据仓库解决方案,特别是分析性场景慢慢会被SQL on Hadoop逐渐替代,而且SQL on Hadoop逐渐成熟,可以支持类似Oracle PL/SQL功能。Hive 2.0 已经支持Hive HPL/SQL已经集成,支持存储过程,Impala,SparkSQL也能支持。后两者支持的还不够成熟.
SQL on Hadoop在未来会在数据仓库占有非常重要的位置,所以很多传统数据仓库方案慢慢被替代,HadoopDBA职位也会发展起来。SQL on NOSQL(NewSQL)也会替代一部分应用场景。所以技术选型性能测试,为企业选择最有利的SQL on Hadoop架构,构建一栈式大数据解决方案非常重要的一环。

阅读更多

Impala - Hive 性能测试和查询优化

Impala - Hive 性能测试和查询优化

阅读更多

Hadoop issue collections

整理在工作中遇到的Hadoop平台遇到的报错信息,以及解决思路。

阅读更多

Hadoop列式存储引擎Parquet/ORC和snappy压缩

相对于传统的行式存储格式,列式存储引擎具有更高的压缩比,更少的IO操作而备受
青睐。列式存储缺点:在column数很多,每次操作大部分列的时候,cpu压力突增,而且增加处理时长。优点:在cloumn数很多,每次操作若干列的场景,列式存储的性价比,性能更高。

阅读更多

sqoop 自动化脚本

Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS,NOSQL中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

阅读更多

Hadoop平台架构--硬件篇

Hadoop平台硬件资源选型,Hadoop版本选择,Hadoop平台角色如何分配,什么硬件适配什么计算引擎,完美的存储格式...

阅读更多

Hadoop平台架构--存储篇

HDFS存储规范,主要介绍存储规划和HDFS目录规划...

阅读更多