WHOAMI
Xu Jiang
技术人的日常.
  • apache-solr-memory-tuning-for-production

    正确配置Apache Solr内存对于生产系统的稳定性和性能至关重要。在相互矛盾的目标之间找到平衡点真的很难。还需要考虑隐含的或明确的多个因素。这篇文章介绍了内存调优的一些常见任务,并指导您完成该过程,以帮助您了解如何为生产系统配置Solr内存。 为了操作简单起见,这篇文章采用在HDFS上运行...

    • solr
  • connect-tableau-druid-hive

    HIVE / DRUID INTEGRATION MEANS DRUID IS BI-READY FROM YOUR TOOL OF CHOICE 这是与Apache Hive和Druid进行超快速OLAP分析的三部分系列的第3部分。 将Tableau连接到Druid 在这之前,...

    • Druid
  • apache-hbase-medium-object-storage-mob-policies

    介绍: HBASE-11339 引入了Apache HBase介质对象存储(MOB)的功能。该功能可以提高中等尺寸值的低延迟读写访问(理想情况下,我们的测试结果是从100K到10MB),使尺寸值非常适合存储文档,图像和其他中等尺寸的对象[1]。Apache HBase MOB功能通过分离文...

    • hbase
  • spark-hbase-dataframe-based-hbase-connector

    我们非常高兴的宣告由Hortonworks和Bloomberg合作开发完成的 Spark-HBase 连接器技术预览版的发行。 Spark-HBase连接器利用Spark-1.2.0引入 Data Source API ( SPARK-3247 )。它弥合了简单的HBase Key Valu...

    • hbase
  • sparksql-ranger-column-level-security-masking

    Apache Spark引发了在大型数据集上进行数据挖掘的爆炸式增长。Spark在通用分布式计算访问中发挥了巨大的作用。任何在Python,Scala,Java和R中具有一定造诣的人都能大规模地探索数据。Spark提供ML(Machine Learning)作为一系列黑盒子,将数据科学民主化。对于...

    • spark
  • new_apache-spark-zeppelin-hdp-2-6_enterprise_data

    任何数据值和它内部的派生值都是成正比的。因为 Data Lake Architecture ,所有的企业数据提供在一个位置。从数据湖深入驱动的关键是Apache Spark & Apache Zeppelin。两者都是预测分析和机器学习的关键工具。HDP最进发布的版本为 Spark &am...

    • HDP
  • 解密Apache Hadoop YARN Fair Scheduler Queue Basics

    在这部分的中, 我们对Fair Scheduler如何运行进行深入了解, 以及其运行原理。 在本系列的第3部分中, 为您提供了关于Fair Scheduler的一个简介, 其一是在Apache Hadoop YARN 选择 scheduler ,(另一个是Cloudera推荐的)在第4部分中,...

    • hadoop
  • 简介Apache Spark的行-列级的访问权限

    Hortonworks数据平台(HDP)的最新版本的功能为我们的客户提供了大量重大的改良,例如,现在HDP 2.6.0支持Apache Spark™2.1和Apache Hive™2.1(LLAP™)作为GA。通常客户在Hive里面存储数据,用Hive和SparkSQL分析这些数据。这种方案一个很...

    • spark
  • 比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

    主题 这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域。这有助于理解它...

    • hadoop
  • 如何在新版Apache Hadoop中使用HDFSIntra-DataNode磁盘均衡器

    目前HDFS包含了(在CDH 5.8.2 及更高版本)一个综合的容量管理存储方法,该方法用于跨节点移动数据。 在HDFS内部,数据节点将数据块分布在本地文件系统目录中,该本地文件系统目录被指定用于dfs.datanode.data.dir in hdfs-site.xml. 在不同的设...

    • hadoop
  • 宣布Apache Hive 2查询性能提升25倍以上

    Apache Hive 2.1发布于一个月以前, 这是一个回顾Hive2如何彻底改变Hadoop 上的SQL 引擎的机会。 Hive 有很多新的改变,很难说具体的亮点, 但是以下有几个: Hive LLAP的交互式查询,Hive 2.0就介绍了LLAP,LLAP 在Hive 2.1得...

    • Hive
  • Apache Hive vs Apache Impala Query Performance Comparison

    Apache Hive 2.0 是100%开源软件,而社区也在不断驱动Apache Hive 2.0的革新,LLAP更是真实地将快速分析提升到一个新的水平。它使得客户在不需要追加基于SQL的分析工具就可以执行次秒级的交互式查询,能够快速迭代分析,还提供了非常重要的价值转换。 今天尝...

    • Impala
  • 怎么备份和灾难复原Apache Solr (part 1)

    Cloudera Search(是Apache Solr和 Apache Hadoop 生态系统的集成)现在对Solr Connections 支持(作为5.9版本)备份和恢复 。 在这篇文章中我们将讨论在Cloudera Search 内部备份的基本知识和灾难恢复能力。下一篇文章中我们将讨论...

    • solr
  • 10GE-Hadoop-Network-Designs

    10G 的Hadoop有什么意义呢?你会怎么设计集群呢?我们一起讨论一下适合或者不适合10G Hadoop的案例,然后看看怎么对10G集群进行网络的设计。如果你想快速开启10G Hadoop或升级, 基于Hadoop集群和网络请认真阅读这篇文章然后再回过头来思考。 1G Hadoop集群背...

    • Network