简介Apache Spark的行-列级的访问权限

Hortonworks数据平台(HDP)的最新版本的功能为我们的客户提供了大量重大的改良，例如，现在HDP 2.6.0支持Apache Spark™2.1和Apache Hive™2.1(LLAP™)作为GA。通常客户在Hive里面存储数据，用Hive和SparkSQL分析这些数据。这种方案一个很重要的需求是不管是否是用Hive 和SparkSQL分析数据，都要在Hive数据中应用相同细粒度的访问权限规则，。这种细粒度访问权限包括的功能有行/列级访问或者屏蔽数据。Spark SQL 2.1的 HDP 2.6.0行/列级安全性是预定了GA并且即将发布的 HDP 2.6.1的技术预览版。

企业最基本的需求一直是安全性。例如，在一个公司里记账、数据科学、区域销售团队可能都需要访问权限查看客户数据，而敏感的数据，像信用卡卡号仅仅只有财务团队可以访问。此前，Apache Hive™和Apache Ranger™的规则就是针对处理这种情况的。

使用HDP 2.6之后 SparkSQL的核心价值

共享访问权限规则：同一集群上可以安全的共享数据，还可以通过SparkSQL和 Hive之间通用的访问权限规则持续控制数据。
审计：SparkSQL所有的访问通道都可以通过Ranger的集中式接口监控和搜索。
资源管理：每个用户都可以用一个唯一的队列访问安全的共享数据。
最低过渡成本：因为这种功能在SQL中提供了行/列级安全性，所以目前 Spark 2.1 apps 、脚本、所有的Spark shells(spark-shell, pyspark, sparkR, spark-sql)无需任何修改都支持这种功能。

使用行/列级安全性不同SQL，用户基于用过的规则，做相同的查询得到的结果不同。换句话说，用户只能基于每个Kerberos主体的身份信息查看数据。细粒度的样式限制了对数据库的访问，表的访问，行的访问和列的访问。

SparkSQL访问模式

Spark SQL 有多种不同的访问模式—Spark Thrift Server over JDBC/ODBC, Spark shells, 和 Spark 应用程序. 也可以用Spark Thrift Server经由Apache Zeppelin的JDBC解释器访问SparkSQL，HDP 2.6都支持这些访问模式。