当前位置: 首页 > news >正文

蚌埠做网站有哪些公司太原市住房与城乡建设厅网站

蚌埠做网站有哪些公司,太原市住房与城乡建设厅网站,wordpress修改菜单栏,织梦系统网站模板修改一#xff0c;Transformation变换/转换算子#xff1a; 这种变换并不触发提交作业#xff0c;这种算子是延迟执行的#xff0c;也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行#xff0c;需要等到有Action操作的时候才会真正触发。 1.Value数据类型的Transf…一Transformation变换/转换算子 这种变换并不触发提交作业这种算子是延迟执行的也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行需要等到有Action操作的时候才会真正触发。 1.Value数据类型的Transformation算子 这种变换并不触发提交作业针对处理的数据项是Value型的数据 1输入分区与输出分区一对一型 1.map算子 处理数据是一对一的关系进入一条数据出去的还是一条数据。map的输入变换函数应用于RDD中所有的元素而mapPartitions应用于所有分区。区别于mapPartitions主要在于调度粒度不同。如parallelize1 to 10 3map函数执行了10次而mapPartitions函数执行了3次。 2.flatMap算子 flatMap是一对多的关系处理一条数据得到多条结果。将原来 RDD 中的每个元素通过函数 f 转换为新的元素并将生成的 RDD 的每个集合中的元素合并为一个集合。 3.mapPartitions算子 mapPartitions遍历的是每一个分区中的数据一个个分区的遍历。获 取 到 每 个 分 区 的 迭 代器在 函 数 中 通 过 这 个 分 区 整 体 的 迭 代 器 对整 个 分 区 的 元 素 进 行 操 作相对于map一条条处理数据性能比较高可获取返回值。 可以通过函数f(iter) iter.filter(_3)对分区中所有的数据进行过滤大于和等于3的数据保留一个方块代表一个RDD分区含有1,2,3的分区过滤只剩下元素3。 4.mapPartitionsWithIndex算子 拿到每个RDD中的分区以及分区中的数据 2输入分区与输出分区多对一型 5.union算子 合并两个RDD两个RDD必须是同种类型不一定是KV格式的RDD 6.cartesian算子 求笛卡尔积该操作不会执行shuffle操作但最好别用容易触发OOM 3输入分区与输出分区多对多型 7.groupBy算子 按照指定的规则将数据分组 groupByKey算子 有shuffle产生 根据key去将相同的key对应的value合并在一起K,V(K,[V]) 4输出分区是输入分区子集类型 8.filter算子 过滤数据返回true的数据会被留下 9.distinct算子 distinct去重有shuffle产生内部实际是mapreduceByKeymap实现 10.subtract算子 取RDD的差集subtract两个RDD的类型要一致结果RDD的分区数与subtract算子前面的RDD分区数多的一致。 11.sample算子 sample随机抽样参数samplewithReplacement:有无放回抽样fraction:抽样的比例seed:用于指定的随机数生成器的种子 有种子和无种子的区别 有种子是只要针对数据源一样都是指定相同的参数那么每次抽样到的数据都是一样的 没有种子是针对同一个数据源每次抽样都是随机抽样 5Cache算子 13.cache算子 将结果缓存到内存中 14.persist算子 释放内存 cache()和persist()注意问题 1.cache()和persist()持久化单位是partitioncache()和persist()是懒执行算子需要action算子触发执行2.对一个RDD使用cache或者persist之后可以赋值给一个变量下次直接使用这个变量就是使用持久化的数据。 * 也可以直接对RDD进行cache或者persist不赋值给一个变量 *3.如果采用第二种方法赋值给变量的话后面不能紧跟action算子 * 4.cache()和persist()的数据在当前application执行完成之后会自动清除 2.Key-Value 数据类型的Transformation算子 这种变换并不触发提交作业针对处理的数据项是Key-Value型的数据对 1输入分区与输出分区一对一 15.mapValues算子 针对KV格式的数据只对Value做操作Key保持不变 flatMapValues K,V-(K,V)作用在K,V格式的RDD上对一个Key的一个Value返回多个Value 2对单个RDD或者两个RDD聚集 单个RDD聚集 16.combineByKey算子 首先给RDD中每个分区中的每一个key一个初始值 其次在RDD每个分区内部相同的key聚合一次 再次在RDD不同的分区之间将相同的key结果聚合一次 17.reduceByKey算子 首先会根据key去分组然后在每一组中将value聚合作用在KV格式的RDD上 18.repartition算子 重新分区可以将RDD的分区增多或者减少会产生shufflecoalesc(num,true) repartition(num) 两个RDD聚集 19.cogroup算子 合并两个RDD,生成一个新的RDD。分区数与分区数多个那个RDD保持一致 3连接 20.join算子 会产生shuffle,(K,V)格式的RDD和(K,V)格式的RDD按照相同的Kjoin得到(K,(V,W))格式的数据分区数按照大的来。 21.leftOutJoin和rightOutJoin算子、fullOuterJoin算子 leftOuterJoin(K,V)格式的RDD和(K,V)格式的RDD使用leftOuterJoin结合以左边的RDD出现的key为主 得到(K,(V,Option(W))) rightOuterJoin(K,V)格式的RDD和K,W格式的RDD使用rightOuterJoin结合以右边的RDD出现的key为主得到(K,(Option(V),W)) fullOuterJoin算子(K,V)格式的RDD和(K,V)格式的RDD使用fullOuterJoin结合是以两边的RDD出现的key为主得到(K(Option(V),Option(W))) intersection算子 取两个RDD的交集两个RDD的类型要一致结果RDD的分区数要与两个父RDD多的那个一致 二.Action行动算子 这类算子会触发SparkContext提交job作业并将数据输出到Spark系统。 1无输出 22.foreach算子 遍历RDD中的每一个元素 2HDFS 23.saveAsTextFile算子 将DataSet中的元素以文本的形式写入本地文件系统或者HDFS中Spark将会对每个元素调用toString方法将数据元素转换成文本文件中的一行数据若将文件保存在本地文件系统那么只会保存在executor所在机器的本地目录 24.saveAsObjectFile算子 将数据集中元素以ObjectFile形式写入本地文件系统或者HDFS中 3Scala集合和数据类型 25.collect算子 collect回收算子会将结果回收到Driver端如果结果比较大,就不要回收这样的话会造成Driver端的OOM 26.collectAsMap算子 将K、V格式的RDD回收到Driver端作为Map使用 27.countcountByKeyCountByValue算子 count统计RDD共有多少行数据 countByKey统计相同的key出现的个数 countByValue统计RDD中相同的Value出现的次数不要求数据必须为RDD格式 28.take take取出RDD中的前N个元素 takeSapmle(withReplacement,num,seed) 随机抽样将数据结果拿回Driver端使用返回Array withReplacement:有无放回抽样num:抽样的条数seed:种子 29.reduce算子 30.aggregateByKey算子 首先是给定RDD的每一个分区一个初始值然后RDD中每一个分区中按照相同的key结合初始值去合并最后RDD之间相同的key聚合 31.zipWithIndex算子 将两个RDD合成一个KV格式的RDD分区数要相同每个分区中的元素必须相同
http://wiki.neutronadmin.com/news/219502/

相关文章:

  • 专门做特价的网站网站建设工具有哪些品牌
  • 厦门网站制作推广wordpress默认ssl
  • 河南商务学校网站建设网络营销是一种无媒介销售
  • 17一起做网站后台济南百搜科技
  • 重庆整站优化的电话销售软件商店oppo
  • 如何优化基础建站电商平台网址
  • 网站备案服务商logo设计网站在线
  • 宁波有没有开发网站的公司创意电子产品设计
  • 制作网站商wordpress小程序 守望轩
  • 做一个网站需要多少钱大概seo怎么做整站排名
  • 为什么网站建设价格不一企业所得税怎么算2020
  • 韩国网站设计风格网站界面需求
  • 济南网站建设第六网建建设学生社团网站的可行性分析
  • 贵州建设局网站营销方案怎么写模板
  • 邢台市网站制作opencart做外贸网站怎样
  • 长沙建设信息网站新浪网站制作
  • 苍南县龙港哪里有做网站wordpress代码结构
  • 在线制作网站 如何禁止蜘蛛收录网站深圳罗湖网站开发
  • 企业网站建设方案机构网站建设预算明细表
  • 企业网站建设中存在的问题制作app的软件手机版
  • 站斧浏览器网站报价页
  • 网站做全局搜索销售平台有哪些
  • 北京中天人建设工程有限公司网站wordpress 修改搜索
  • 开源网站模板cmsseo是什么
  • 如何计算网站pvseozhun
  • 海络网站用阿里云服务器做盗版小说网站吗
  • 深圳华南城网站建设网站设计专业建站公司
  • 建设公司网站需要钱吗北京网站推广排名
  • 做网站需要购买地域名吗网业分离是什么
  • 网站的设计公司微信小程序 网站建设