如何免费申请网站,怎样进入医院公众号,iis添加网站ip地址,自学网站开发多久一、 介绍
SparkSession是Spark 2.0中引入的新概念#xff0c;它是Spark SQL、DataFrame和Dataset API的入口点#xff0c;是Spark编程的统一API#xff0c;也可看作是读取数据的统一入口#xff1b;它将以前的SparkContext、SQLContext和HiveContext组合在一起#xff0…一、 介绍
SparkSession是Spark 2.0中引入的新概念它是Spark SQL、DataFrame和Dataset API的入口点是Spark编程的统一API也可看作是读取数据的统一入口它将以前的SparkContext、SQLContext和HiveContext组合在一起使得用户可以在一个统一的接口下使用Spark的所有功能。需要注意的是SparkSession是一个重量级的对象创建和销毁的代价较高因此在项目中应该尽可能地重用同一个SparkSession对象。在I/O期间在构建器中设置的配置项将自动同步到Spark和Hadoop。
二、如何使用
# 在项目中初始化SparkSession可以按照以下步骤进行
# 1、导入必要的包
import org.apache.spark.sql.SparkSession
# 2、创建SparkSession对象
val spark SparkSession.builder # 使用builder()方法创建一个SparkSession.Builder对象构建器将自动重用现有的SparkSession如果不存在则会创建一个SparkSession.appName(xxx).config(hive.exec.dynamic.partition, true) # 设置分区.config(hive.exec.dynamic.partition.mode, nonstrict) # 设置hive是动态写入的方式.config(spark.sql.broadcastTimeout, 3000).config(spark.sql.sources.partitionOverwriteMode, dynamic) # 设置hive动态写分区.config(spark.checkpoint.dir, /user/vc/projects_prod/checkpoint/data) # 设置checkpoint的路径.enableHiveSupport().getOrCreate()# 3、使用SparkSession对象进行数据操作
val df spark.read.json(path/to/json/file)
df.show()
三、sparkSession的配置参数参考 https://blog.csdn.net/u010569893/article/details/111356664