当前位置：首页 > news >正文

旅游网站建设建议水头哪里有做网站的

news 2025/12/27 16:37:43

旅游网站建设建议,水头哪里有做网站的,价格信息网,企业咨询管理有限公司文章目录 1. Local 模式1.1 安装local模式1.2 命令行工具1.3 提交本地应用 2. Standlone模式2.1 集群配置2.2 修改配置文件2.3 启动集群与停止集群2.4 提交应用到集群环境2.5 提交应用的参数详细说明2.6 配置历史服务2.7 配置高可用#xff08;HA#xff09; 3. Yarn模式HA 3. Yarn模式常用3.1 集群配置3.2 安装Yarn模式3.3 配置历史服务器3.4 关于配置高可用的相关说明|3.5 停止集群 1. Local 模式 1.1 安装local模式即解压spark-3.0.0-bin-hadoop3.2.tgz 文件到/opt/moudle/路径下并改名为spark-local [gaochuchus1 jvm]$ cd /opt/module/spark-local/ [gaochuchus1 spark-local]$ bin/spark-shell 此时出现如下界面说明local环境启动成功启动后可以通过http://虚拟机地址4040访问Web UI监控界面 1.2 命令行工具命令行工具在/opt/module/spark-local/data的目录下添加一个word.txt文件。通过如下的命令执行单词统计程序退出local模式 scala :quit1.3 提交本地应用提交本地的示例应用 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master local[2] \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10–class 表示要执行程序的主类此处可以更换为咱们自己写的应用程序-master local[2] 部署模式默认为本地模式数字表示分配的虚拟 CPU 核数量spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包实际使用时可以设置为自己打的 jar 包数字 10 表示程序的入口参数用于设定当前应用的任务数量 2. Standlone模式 Local模式只适合进行练习真实工作中还是要将应用提交到对应的集群中去执行StandLione模式只使用Spark自身节点运行的集群模式其特点为经典的master-slaver模式即解压spark-3.0.0-bin-hadoop3.2.tgz 文件到/opt/moudle/路径下并改名为spark-standlone 2.1 集群配置 s1s2s3s4gracalSparkWorker MasterWorkerWorkerWorkerWorker 2.2 修改配置文件修改slaves配置文件 #进入spark-standline的conf目录 [gaochuchus1 ~]$ cd /opt/module/spark-standalone/conf/ #重命名 [gaochuchus1 conf]$ mv slaves.template slaves #修改slaves文件添加worker节点 [gaochuchus1 conf]$ vim slaves s1 s2 s3 s4 gracal环境变量配置文件spark-env.sh.tmpate 改名为spark-env.sh,并增加环境变量 #重命名 [gaochuchus1 conf]$ mv spark-env.sh.template spark-env.sh #修改配置文件 [gaochuchus1 conf]$ vim spark-env.sh #这里配置的是本服务器的java home的位置 export JAVA_HOME/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-1.el7_9.x86_64 SPARK_MASTER_HOSTs1 SPARK_MASTER_PORT7077这里的7077端口相当于hadoop集群中内部通信的8020端口分发spark-standalone目录 xsync spark-standalone2.3 启动集群与停止集群执行脚本启动集群 gaochuchus1 spark-standalone]$ sbin/start-all.sh查看集群运行状态可以知道s1为master而其余节点为worker节点执行脚本停止集群 gaochuchus1 spark-standalone]$ sbin/stop-all.sh2.4 提交应用到集群环境提交应用到集群环境 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://s1:7077 \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10出现如下界面说明应用执行完成成功得到Pi的值注意 –class 表示要执行程序的主类–master spark://s1:7077 独立部署模式连接到 Spark 集群spark-examples_2.12-3.0.0.jar 运行类所在的 jar 包数字 10 表示程序的入口参数用于设定当前应用的任务数量 Standalone模式之下会产生多个java进程 SparkSubmit是提交节点的进程 CoarseGrainedExecutorBackend是执行节点的进程执行任务时在master的Web UI界面可以看到节点的内存以及服务器集群节点的总核数 2.5 提交应用的参数详细说明参数解释可选值举例–classSpark 程序中包含主函数的类–masterSpark 程序运行的模式(环境)模式local[*]、spark://s1:7077、Yarn–executor-memory 1G指定每个 executor 可用内存为 1G–total-executor-cores 2指定所有executor使用的cpu核数为2个–executor-cores指定每个executor使用的cpu核数其值total-excutor-cores/ num-executorsapplication-jar打包好的应用 jar包含依赖。这个URL在集群全局可见。比如 hdfs:// 共享存储系统如果是flie://path,那么所有的节点都包含相同的jarapplication-arguments传给main()方法的参数如上述的数字10说明num-executors为10 2.6 配置历史服务由于spark-shell停止后集群监控s1:4040页面都看不到历史任务的运行情况所以开发的时都配置历史服务器记录任务运行情况修改spark-default.conf.template 文件为spark-default.conf,并配置日志存储路径 # 修改文件名 [gaochuchus1 conf]$ mv spark-defaults.conf.template spark-defaults.conf #配置日志存储路径 [gaochuchus1 conf]$ vim spark-defaults.conf spark.eventLog.enabled true spark.eventLog.dir hdfs://s1:8020/directory注意hdfs中必须已经存在directory 因此启动hadoop集群并使用hadoop fs -mkdir /directory 创建该目录修改spark-env.sh文件添加日志配置并分发配置 [gaochuchus1 conf]$ vim spark-env.sh export SPARK_HISTORY_OPTS -Dspark.history.ui.port18080 -Dspark.history.fs.logDirectoryhdfs://s1:8020/directory -Dspark.history.retainedApplications30参数 1 含义WEB UI 访问的端口号为 18080 参数 2 含义指定历史服务器日志存储路径注意8020是当前版本的Hadoop集群的内部通信窗口hadoop2.x也可能是9000 参数 3 含义指定保存 Application 历史记录的个数如果超过这个值旧的应用程序信息将被删除这个是内存中的应用数而不是页面上显示的应用数。当 Spark 应用程序运行完成后其元数据和日志可以被 Spark 历史服务器Spark History Server存储和显示以便于开发者和管理员回顾和分析。需要注意的是增加保留的应用程序数量将会增加 Spark 历史服务器的磁盘和内存使用量因为它需要存储更多的元数据和日志信息。因此在增加这个值时你需要确保你的系统有足够的资源来支持这么做。重新启动spark集群和历史服务器 [gaochuchus1 spark-standalone]$ sbin/start-all.sh [gaochuchus1 spark-standalone]$ sbin/start-history-server.sh 提交任务 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \--master spark://s1:7077 \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10查看历史服务器http://s1:18080 2.7 配置高可用HA 当前集群中只有一个Master节点会存在单点故障问题。所以为了解决单点故障问题需要在集群中配置多个Master节点一旦活动状态的Master发生故障由备用Master提供服务保证作业能够继续执行。高可用一般采用Zookeeper设置因此需要确保集群中安装了Zookeeper 关闭Spark集群启动Zookeeper集群 [gaochuchus1 spark-standalone]$ sbin/stop-all.sh [gaochuchus1 spark-standalone]$ zk.sh start修改spark-env.sh文件配置添加如下内容并且需要注释原来配置的master的host和port [gaochuchus1 conf]$ vim spark-env.sh #SPARK_MASTER_HOSTs1 #SPARK_MASTER_PORT7077SPARK_MASTER_WEBUI_PORT8989 export SPARK_DAEMON_JAVA_OPTS -Dspark.deploy.recoveryModeZOOKEEPER -Dspark.deploy.zookeeper.urls1,s2,s3,s4,gracal -Dspark.deploy.zookeeper.dir/spark注意Master 监控页面默认访问端口为 8080但是可能会和 Zookeeper 冲突所以改成 8989也可以自定义为其他端口号分发配置并启动spark集群 [gaochuchus1 spark-standalone]$ xsync conf/ [gaochuchus1 spark-standalone]$ sbin/start-all.sh此时访问master节点的Web UI界面http://s1:8989 启动s2的单独master节点访问其Web UIhttp://s2:8989发现此时s2会处于备用状态 [gaochuchus2 spark-standalone]$ sbin/start-master.sh 测试高可用首先我们提交应用 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://s1:7077 \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10停止s1的master进程然后再查看s2的master资源监控的Web UI稍等一段时间s2的Master状态提升为活动状态 3. Yarn模式常用独立部署Standalone模式由Spark自身提供计算资源无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性独立性非常强。但是Spark主要是计算框架不是资源调度框架所以Spark其本身提供的资源调度并不是它的强项所以还是和其他专业的资源调度框架集成更加可靠如Yarn。 3.1 集群配置 s1s2s3s4gracalHDFSNameNode DataNameNodeDataNameNodeSecondaryNameNode DataNameNodeDataNameNodeDataNameNodeYARNNodeManagerResourceManager NodeManagerNodeManagerNodeManagerNodeManagerZookeeperServer1(follower)Server2(follower)Server3(may be learder)Server4(follower)Server5(follower)SparkWorker MasterWorker 可开启备用MasterWorkerWorkerWorker 3.2 安装Yarn模式即解压spark-3.0.0-bin-hadoop3.2.tgz 文件到/opt/moudle/路径下并改名为spark-yarn 修改hadoop的配置文件yarn-site.xml新增配置并且分发配置 [gaochuchus1 ~]$ cd /opt/module/hadoop-3.1.3/etc/hadoop/ [gaochuchus1 hadoop]$ vim yarn-site.xml !--是否启动一个线程检查每个任务正使用的物理内存量如果任务超出分配值则直接将其杀掉默认是 true -- propertynameyarn.nodemanager.pmem-check-enabled/namevaluefalse/value /property !--是否启动一个线程检查每个任务正使用的虚拟内存量如果任务超出分配值则直接将其杀掉默认是 true -- propertynameyarn.nodemanager.vmem-check-enabled/namevaluefalse/value /property[gaochuchus1 hadoop]$ xsync yarn-site.xml 环境变量配置文件spark-env.sh.tmpate 改名为spark-env.sh,并增加环境变量 [gaochuchus1 conf]$ mv spark-env.sh.template spark-env.sh export JAVA_HOME/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-1.el7_9.x86_64 YARN_CONF_DIR/opt/module/hadoop-3.1.3/etc/hadoop启动HDFS以及Yarn集群 [gaochuchus1 conf]$ myhadoop.sh start提交应用特别注意Yarn模式下已经不需要启动Spark集群了只需要保证Hadoop集群处于启动状态即可否则在启动Spark集群的时候会显示localhost: Authentication failed. bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10运行完成查看http://s2:7666页面点击History 查看历史页面【因为Yarn的ResouceManager配置在s2节点上】 3.3 配置历史服务器由于spark-shell停止后集群监控s1:4040页面都看不到历史任务的运行情况所以开发的时都配置历史服务器记录任务运行情况修改spark-default.conf.template 文件为spark-default.conf,并配置日志存储路径 # 修改文件名 [gaochuchus1 conf]$ mv spark-defaults.conf.template spark-defaults.conf #配置日志存储路径 [gaochuchus1 conf]$ vim spark-defaults.conf spark.eventLog.enabled true spark.eventLog.dir hdfs://s1:8020/directory注意hdfs中必须已经存在directory 因此启动hadoop集群并使用hadoop fs -mkdir /directory 创建该目录修改spark-env.sh文件添加日志配置并分发配置 [gaochuchus1 conf]$ vim spark-env.sh export SPARK_HISTORY_OPTS -Dspark.history.ui.port18080 -Dspark.history.fs.logDirectoryhdfs://s1:8020/directory -Dspark.history.retainedApplications30参数 1 含义WEB UI 访问的端口号为 18080 参数 2 含义指定历史服务器日志存储路径注意8020是当前版本的Hadoop集群的内部通信窗口hadoop2.x也可能是9000 参数 3 含义指定保存 Application 历史记录的个数如果超过这个值旧的应用程序信息将被删除这个是内存中的应用数而不是页面上显示的应用数。当 Spark 应用程序运行完成后其元数据和日志可以被 Spark 历史服务器Spark History Server存储和显示以便于开发者和管理员回顾和分析。需要注意的是增加保留的应用程序数量将会增加 Spark 历史服务器的磁盘和内存使用量因为它需要存储更多的元数据和日志信息。因此在增加这个值时你需要确保你的系统有足够的资源来支持这么做。修改spark-default.conf,添加配置文件 [gaochuchus1 conf]$ vim spark-defaults.conf spark.yarn.historyServer.addresss1:18080 spark.history.ui.port18080重新启动历史服务器 [gaochuchus1 spark-standalone]$ sbin/start-history-server.sh 重新提交应用 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10查看Yarn的WebUI http:s2:1666 以及历史服务器http:s1:18080 3.4 关于配置高可用的相关说明| Spark on YARN模式的高可用性使用YARN ResourceManager的HA机制通过ResourceManager的自动故障转移实现Spark集群的高可用性。 Spark Standalone模式的高可用性: 使用Spark自带的HA机制通过Zookeeper实现主节点的选举和故障转移从而保证Spark集群的高可用性。 3.5 停止集群 # 停止hadoop集群 [gaochuchus1 spark-yarn]$ myhadoop.sh stop # 停止历史服务器 [gaochuchus1 spark-yarn]$ sbin/stop-history-server.sh

查看全文

http://wiki.neutronadmin.com/news/44520/