当前位置: 首页 > news >正文

怎么不用wordpress秦洁婷seo博客

怎么不用wordpress,秦洁婷seo博客,做高端企业网站建设公司,安徽网络技术服务推广一、Spark SQL的Shuffle分区数目设定 二、异常数据处理API #xff08;1#xff09;去重方法dropDuplicates #xff08;2#xff09;删除有缺失值的行方法dropna #xff08;3#xff09;填充缺失值数据fillna 一、Spark SQL的Shuffle分区数目设定 在允许spark程序时1去重方法dropDuplicates 2删除有缺失值的行方法dropna 3填充缺失值数据fillna 一、Spark SQL的Shuffle分区数目设定 在允许spark程序时查看WEB UI监控页面发现某个Stage中有200个Task任务也就是说RDD有200分区Partion。 产生原因 在Spark SQL中当Job中产生Shuffle时默认的分区数spark.sql.shuffle.partions为200在实际项目中要合理的设置。local模式建议适当降低集群模式下应动态调整。 配置修改 二、异常数据处理API 1去重方法dropDuplicates 功能对DF的数据进行去重如果重复数据有多条取第一条。 # cording:utf8from pyspark.sql import SparkSession from pyspark.sql import functions as Fif __name__ __main__:spark SparkSession.builder.\appName(wordcount).\master(local[*]).\getOrCreate()sc spark.sparkContext读取数据df spark.read.format(csv).\option(sep, ;).\option(header, True).\load(../input/people.csv)# 数据清洗数据去重# dropDuplicates 是DataFrame的API可以完成数据去重# 无参数使用对全部的列 联合起来进行比较去除重复项只保留一条df.dropDuplicates().show()df.dropDuplicates([age, job]).show() 无参数 有参数 2删除有缺失值的行方法dropna 功能如果数据中包含null通过dropna来进行判断符合条件就删除这一行数据 # cording:utf8from pyspark.sql import SparkSession from pyspark.sql import functions as Fif __name__ __main__:spark SparkSession.builder.\appName(wordcount).\master(local[*]).\getOrCreate()sc spark.sparkContext读取数据df spark.read.format(csv).\option(sep, ;).\option(header, True).\load(../input/people.csv)# 数据清洗缺失值处理# dropna API是可以对缺失值的数据进行删除# 无参数使用只要列中有Null 就删除这一行数据df.dropna().show()# thresh 3 表示最少满足三个有效列不满足 就删除当前行数据df.dropna(thresh3).show()df.dropna(thresh2, subset[name, age]).show() 指定thresh参数 指定subset 3填充缺失值数据fillna 功能根据参数的规则来进行null的替换 # cording:utf8from pyspark.sql import SparkSession from pyspark.sql import functions as Fif __name__ __main__:spark SparkSession.builder.\appName(wordcount).\master(local[*]).\getOrCreate()sc spark.sparkContext读取数据df spark.read.format(csv).\option(sep, ;).\option(header, True).\load(../input/people.csv)# 对缺失值进行填充# DataFrame的fillna对缺失值的列进行填充df.fillna(loss).show()# 对指定的列进行填充df.fillna(N/A, subset[job]).show()# 设定一个字典对所有的列进行填充缺失值df.fillna({name:未知姓名, age:1, job:worker}).show() 全局填充 指定列填充         通过字典填充
http://wiki.neutronadmin.com/news/195712/

相关文章:

  • 如何做自己网站平台如何找外链资源
  • 长春建设平台网站的公司吗世界上第二大互联网公司是
  • 科技公司的网站做整个网站静态页面多少钱
  • 宁波网站建设托管做pc端网站信息
  • 建设工程竞标网站php网站开发实训报告书
  • 网站设计首页济南软件开发工资一般多少
  • 陵水县建设局网站建筑设计专业大学排名
  • wordpress博客网站广西网站建设在线
  • 网站系统php源码平台网站制作公司
  • 网站编辑人才队伍建设搭建一个商城网站
  • 做微信的网站网站开发多少费用
  • 外贸网站建站注意事项wordpress安装后浏览首页错位
  • 南昌网站建设包括哪些做网站要用到什么软件
  • 事业单位做网站需要前置审批吗网站建设公司做的网站
  • 网站上推广游戏怎么做的长沙网站建设搭建
  • 如何免费开自己的网站自动链接 wordpress
  • vps云主机可以建立几个网站注册小规模公司需要什么资料
  • 洛阳做网站汉狮网络浙江网站建设优化
  • 网站建设公司86215老河口网站设计
  • 保险微网站制作cms快速建站
  • 网站开发与设计需要哪些技术网站开发框架具体使用方法
  • 怎么免费做自己的网站南充网站建设有哪些
  • 广州外贸seo优化河北seo网站开发
  • 为什么原网站建设公司不愿意透露域名管理权限给客户贵阳网站建设公司招聘
  • 大连模板开发建站南阳哪有做网站公司
  • 建一个大型网站多少钱做推广的网站名称
  • 合肥网站排名推广微课做动画的网站
  • 企业建站程序哪个好百度权重10的网站
  • 宁波手机网站开发中企动力有多少家分公司
  • 企业宣传网站建设需求说明书样文网站建设最基础的是什么