Hive和Spark 均是:“分布式SQL计算引擎”
【资料图】
均是构建大规模结构化数据计算的绝佳利器,同时SparkSQL拥有更好的性能。
目前,企业中使用Hive仍旧居多,但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级
回顾Pandas和SparkSQL的数据抽象
Pandas - DataFrame
· 二维表数据结构
· 单机(本地)集合
SparkCore - RDD
· 无标准数据结构,存储什么数据均可
· 分布式集合(分区)
SparkSQL - DataFrame
· 二维表数据结构
· 分布式集合(分区)
SparkSQL 其实有3类数据抽象对象
· SchemaRDD对象(已废弃)
· DataSet对象:可用于Java、Scala语言
· DataFrame对象:可用于Java、Scala、Python、R
我们以Python开发SparkSQL,主要使用的就是DataFrame对象作为核心数据结构
在SparkSQL当中,Spark为我们提供了两个操作SparkSQL的抽象,分别是DataFrame和DataSet。也就是说我们操作SparkSQL一般都是使用DataFrame或者DataSet来实现的。
RDD(Spark1.0) ==> DataFrame(1.3) ==> DataSet(1.6)
标签: