小说下载网站哪个好,养育成本,深圳网站建设公司怎么样,一般做外单的有哪些网站目录 简介
安装准备
spark安装
配置文件配置 简介 Spark主要⽤于⼤数据的并⾏计算#xff0c;⽽Hadoop在企业主要⽤于⼤数据的存储#xff08;⽐如HDFS、Hive和HBase 等#xff09;#xff0c;以及资源调度#xff08;Yarn#xff09;。但是也有很多公司也在使⽤MR2进…目录 简介
安装准备
spark安装
配置文件配置 简介 Spark主要⽤于⼤数据的并⾏计算⽽Hadoop在企业主要⽤于⼤数据的存储⽐如HDFS、Hive和HBase 等以及资源调度Yarn。但是也有很多公司也在使⽤MR2进⾏离线计算的开发。Spark Hadoop在当前自建平台技术中是离线计算任务开发的主流组合方式。 数据存储HDFS 资源调度Yarn 数据计算Spark或MapReduce取决于具体的企业需求场景 Spark提供了 Spark Core 、 Spark SQL 、 Spark Streaming 、 Spark MLlib 、 Spark GraphX 和Spark-R等技术组件可以⼀站式地完成⼤数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算和统计等常⻅的任务。 Spark引进了弹性分布式数据集Resilient DistributedDataset, RDD它是分布在一组节点中的只读对象集合。这些对象集合是弹性的如果丢失了一部分对象集合Spark则可以根据父RDD对它们进行计算。另外在对RDD进行转换计算时可以通过CheckPoint方法将数据持久化比如可以持久化到HDFS从而实现容错。 安装准备 linux免密登录 zookeeper安装 hadoop安装 spark安装
通过官网下载安装包 spark-3.5.0-bin-hadoop3.tgz,所有节点同步下载。 wget https://archive.apache.org/dist/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz然后进行解压清空压缩包设置软连接。 tar -zxf spark-3.5.0-bin-hadoop3.tgz
rm -rf spark-3.5.0-bin-hadoop3.tgz
ln -s spark-3.5.0-bin-hadoop3/ spark 配置文件配置 在$SPARK_HOME/conf 下压缩包中自带一个标准格式文件将其更名为spark-env.sh便可。 [hadoopvm02 conf]$ cp spark-env.sh.template spark-env.sh
[hadoopvm02 conf]$ ll
total 44
-rw-r--r-- 1 hadoop hadoop 1105 Sep 9 10:08 fairscheduler.xml.template
-rw-r--r-- 1 hadoop hadoop 3350 Sep 9 10:08 log4j2.properties.template
-rw-r--r-- 1 hadoop hadoop 9141 Sep 9 10:08 metrics.properties.template
-rw-r--r-- 1 hadoop hadoop 1292 Sep 9 10:08 spark-defaults.conf.template
-rwxr-xr-x 1 hadoop hadoop 4694 Dec 10 23:02 spark-env.sh
-rwxr-xr-x 1 hadoop hadoop 4694 Sep 9 10:08 spark-env.sh.template
-rw-r--r-- 1 hadoop hadoop 865 Sep 9 10:08 workers.template 本文使用简易配置作为演示关于其他参数在配置文档中已经写明注释可以根据实际情况进行阅读或选择性配置。本文在该文档下只设置主节点hostname所有节点同步 export SPARK_MASTER_HOSTvm02
export JAVA_HOME/jdk/jdk1.8.0_144/
export JRE_HOME${JAVA_HOME}/jre
export CLASSPATH${JAVA_HOME}/lib:${JRE_HOME}/lib
export ZOOKEEPER_HOME/home/hadoop/zookeeper
#HADOOP_HOME
export HADOOP_HOME/home/hadoop/hadoop
export HBASE_HOME/home/hadoop/hbase· 设置vm03,vm04为工作节点 [hadoopvm02 conf]$ cp workers.template workers
[hadoopvm02 conf]$ vim workers
vm03
vm04 配置spark环境变量 vim /etc/profile将一下环境变量配置加入到文件中 export PATH$SPARK_HOME/bin:$PATH
export SPARK_HOME/home/hadoop/spark重新加载环境变量 source /etc/profile 启动spark ##进入$SPARK_HOME/sbin 目录下启动spark
start-all.sh 注意spark的启动指令的命令的名称和hadoop的启动名称是一样的所以不要设置$SPARK_HOME/sbin 的PATH环境变量 启动完成后可以只看到marster在vm02上vm03,vm04都是work节点。
在所有节点均可以使用以下命令进入spark的交互端口 spark-shell --master local只有当进入到交互命令行时才可以访问对应节点的webui页面默认端口是4040 使用ctrlc便可以退出交互行 spark的安装也是相当方便。读者有什么疑问可以私信咨询。