当前位置: 首页 > news >正文

网站建设前端和后端微信营销网站建设

网站建设前端和后端,微信营销网站建设,如何制作网站模板,网站推广渠道咨询1 概述 问题一览 总体感觉良好#xff0c;通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数#xff08;好好在复习下多准备几个吧#xff09…1 概述 问题一览 总体感觉良好通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数好好在复习下多准备几个吧 *6.请讲下维度建模和范式建模的区别自上而下自底而上关系-实体事实-维度 *7.为什么关系型数据库更适合范式建模而数仓适合维度建模 8.讲下数据倾斜 *9.HIVE的分区和分桶分区是放在不同目录下分桶是放在不同文件中 10.什么是Hive-on-mr什么是Hive-on-spark 11.又问了简历的另一段实习经历 *12.复述下你曾经做过的一个数据科学的项目你做了多少是不是你一个人做的这个问题失误在于没有挑典型项目讲现在要准备下稿子 12.这个岗位是实习岗不会影响你秋招吗 12.经典的反问环节 2 题目总结 2.1 讲下HIVE的内部表和外部表有什么不同 未被external修饰的是内部表被external修饰的为外部表。内部表数据由Hive自身管理外部表数据由HDFS管理内部表数据存储的位置是hive.metastore.warehouse.dir默认/user/hive/warehouse 外部表数据的存储位置由自己设置删除内部表会直接删除元数据metadata及存储数据删除外部表仅仅会删除元数据HDFS上的文件并不会被删除。 2.2 讲下你使用过的Hive函数 HIVE 常用函数总结https://www.zhihu.com/tardis/zm/art/102502175?source_id1005 向下取整函数: floor指定精度取整函数: round 向上取整函数: ceil 取随机数函数: rand 绝对值函数: abs日期转年函数: year 日期转月函数: month日期转天函数: day  2.3 请讲下维度建模和范式建模的区别 数据仓库的两种建模方法范式建模和维度建模_数据仓库 数据建模_Happybigman的博客-CSDN博客数据仓库的两种建模方法范式建模Inmon提出的集线器的自上而下EDW-DM的数据仓库架构。操作型或事务型系统的数据源通过ETL抽取转换和加载到数据仓库的ODS层然后通过ODS的数据建设原子数据的数据仓库EDWEDW不是多维格式的不方便上层应用做数据分析所以需要通过汇总建设成多维格式的数据集市层。优势易于维护高度集成劣势结构死板部署周期较长范式建模应用在EDW层..._数据仓库 数据建模https://blog.csdn.net/baidu_20183817/article/details/104991764 2.4 为什么关系型数据库更适合范式建模而数仓适合维度建模 范式建模的优缺点 优点 节约存储(尤其是利用数据库进行数仓建设的时候)规范化带来的好处是通过减少数据冗余提高更新数据的效率同时保证数据完整性。结构清晰易于理解 缺点 构建比较复杂查询复杂(需要很多的关联)不适合在大数据环境下构建因为两点1 查询复杂  2 存储很便宜 总结由于建模方法限定在关系型数据库之上在某些时候反而限制了整个数据仓库模型的灵活性性能等特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时需要进行一定的变通才能满足相应的需求。 2.5 讲下数据倾斜 空值引发的数据倾斜 解决方案 第一种可以直接不让null值参与join操作即不让null值有shuffle第二种因为null值参与shuffle时的hash结果是一样的那么我们可以给null值随机赋值这样它们的hash结果就不一样就会进到不同的reduce中不同数据类型引发的数据倾斜 解决方案 如果key字段既有string类型也有int类型默认的hash就都会按int类型来分配那我们直接把int类型都转为string就好了这样key字段都为stringhash时就按照string类型分配了不可拆分大文件引发的数据倾斜 解决方案 这种数据倾斜问题没有什么好的解决方案只能将使用GZIP压缩等不支持文件分割的文件转为bzip和zip等支持文件分割的压缩方式。 所以我们在对文件进行压缩时为避免因不可拆分大文件而引发数据读取的倾斜在数据压缩的时候可以采用bzip2和Zip等支持文件分割的压缩算法。数据膨胀引发的数据倾斜 解决方案 在Hive中可以通过参数 hive.new.job.grouping.set.cardinality 配置的方式自动控制作业的拆解该参数默认值是30。表示针对grouping sets/rollups/cubes这类多维聚合的操作如果最后拆解的键组合大于该值会启用新的任务去处理大于该值之外的组合。如果在处理数据时某个分组聚合的列有较大的倾斜可以适当调小该值。表连接时引发的数据倾斜 解决方案 通常做法是将倾斜的数据存到分布式缓存中分发到各个Map任务所在节点。在Map阶段完成join操作即MapJoin这避免了 Shuffle从而避免了数据倾斜。其他情况引发的数据倾斜 解决方案 这类问题最直接的方式就是调整reduce所执行的内存大小。 调整reduce的内存大小使用mapreduce.reduce.memory.mb这个配置。 2.6 HIVE的分区和分桶的区别 分区是按照分区字段在HDFS上建立子文件夹分区内的数据存放在子文件夹内查询时不需要全局扫描只扫描对应分区文件夹的数据。 而分桶是按分桶字段对数据取hash值值相同的放在同一个分桶文件里分桶生成的是分桶文件分区对应的是子文件夹。
http://wiki.neutronadmin.com/news/76838/

相关文章:

  • 如何建立内部网站网站架构设计招聘
  • 苏州制作网站的有几家网站上放个域名查询
  • 不做网站做百家号html模板网页
  • 区块链技术网站开发网页制作软件培训机构
  • 做私人彩票网站网页制作古诗素材
  • 林业网站建设方案临沭县哪里有建网站的
  • 网络课程网站模板xampp上安装wordpress
  • 网站开发 确认函网站登陆界面怎么做
  • 新开传奇网站999深圳建筑
  • 如何把国外的网站在国内做镜像江苏电力建设网站
  • 玉林网站建设培训100个详情页设计图
  • 杭州北京网站建设清远市专业网站制作
  • 请别人做网站有风险吗大连高新园区地图
  • 深圳建站的公司专业建设汇报ppt
  • 建设网站所需资料安装网站模版视频教程
  • 这2个代码 找做网站的 安装一下余姚网站推广策划案
  • 民权做网站的公司临沂网站制作公司6
  • 兰州网站建设q.479185700棒安装wordpress登录时的域名是什么
  • 有关建筑的网站重庆网站建设接重庆零臻科技
  • 用c做网站家具全屋定制
  • 网站开发需要用什么营销策划公司名字大全
  • 北京网站设计有名 乐云践新wordpress小工具用不
  • 安阳免费搭建自己的网站网站服务器查询平台
  • 做网站是不是太麻烦了做网站设计赚不赚钱
  • asp网站一打开就是download一个网站多个域名 seo
  • wordpress适合做什么网站网址大全黄页男女
  • 怎么用网站的二级目录做排名做电容元器件的网站有哪些
  • 网站建设的盈利模式保定网站建设方法
  • 西安米德建站超市网上商城
  • 仿顺丰优选网站源码万网网