东莞网站建设(信科分公司),网站备案中页面,品牌网站建设 十蝌蚪小,最优化方法一、目的
在实际项目中#xff0c;从Kafka到HDFS的数据是每天自动生成一个文件#xff0c;按日期区分。而且Kafka在不断生产数据#xff0c;因此看看kettle是不是需要时刻运行#xff1f;能不能按照每日自动生成数据文件#xff1f;
为了测试实际项目中的海豚定时调度从…一、目的
在实际项目中从Kafka到HDFS的数据是每天自动生成一个文件按日期区分。而且Kafka在不断生产数据因此看看kettle是不是需要时刻运行能不能按照每日自动生成数据文件
为了测试实际项目中的海豚定时调度从Kafka到HDFS的kettle任务情况特地提前跑一下海豚定时调度这个任务看看到底什么情况。
二、海豚调度任务配置
一SHELL脚本配置
#!/bin/bash source /etc/profile
/opt/install/kettle9.2/data-integration/pan.sh -rephurys_linux_kettle_repository -useradmin -passadmin -dir/kafka_to_hdfs/ -trans04_Kafka_to_HDFS_turnratio levelBasic /home/log/kettle/04_Kafka_to_HDFS_turnratio_date %Y%m%d.log 二定时任务设置
定时任务设置为每天的零点零点一到开始执行任务 三最后工作流情况 三、启动后追踪每天HDFS文件的情况
一启动工作流 工作流启动成功工作流一直在跑 相应的任务实例也在跑
二每天HDFS情况
1、第一天为2023/8/30日 由于第一天开始执行任务因此自动生成2023/08/30的HDFS文件
2、第二天为2023/8/31日 第二天的海豚任务自动调度自动生成2023/08/31的HDFS文件
但问题是除了再跑31日的任务外30日的任务还在跑可能是定时配置有问题需要优化
而且这样搞容易把kettle搞出问题