杭州网站推广技巧,百度网站如何优化排名,东营招标信息网官网,房地产估价师东方国信学长1Hadoop工程师笔试题#xff08;金融事业部#xff09;1#xff09;技术基础题#xff08;共十题#xff0c;每题5分#xff09;#xff08;1#xff09;列举在Linux系统下可以在看系统各项性能的工具#xff08;区分CPU、内存、硬盘、网络等#xff09;…东方国信学长1Hadoop工程师笔试题金融事业部1技术基础题共十题每题5分1列举在Linux系统下可以在看系统各项性能的工具区分CPU、内存、硬盘、网络等2HDFS写入数据的实现机制3Yarn支持的调度器及管理硬件资源种类4如何决定一个job的map和reduce的数量5在map、reduce 迭代模型中如何实现数据去重6简单描述HBase的rowkey设计原则7HBase海量历史数据入库方案8Hive中内部表与外部表的区别9Hive中UDF、UDAF、UDTF的区别10Spark Job运行架构2场景设计题共二题每题10分假设海量小文件使用HBase进行管理要求对一批文件进行批量存储并支持对单文件进行更新操作保留历史版本信息。查询时可根据批次号获取该批次的全部文件内容也可根据文件标识可获取单文件内容支持最新版本及所有版本查询。根据业务场景设计HBase存储方案。学长2大数据工程师笔试题1理论题1HDFS的存储机制是什么2mapreduce的工作原理请举个例子说明mapreduce是怎么运行的Combiner的作用3简单介绍对Hadoop的理解包括系统架构和Hadoop整个生态系统详细介绍工作中曾用到过的4对流式计算storm的认识其与Spark streaming有何区别项目中应用到storm的应用场景简介。2实践题1利用Spark或者mapreduce或者hive要求建表编写搜索日志分析用户在0点12点对各个APP的搜索量。搜索日志存放路径为/input/data.txt.文件用竖线分割第一列为时间字段第三列为APP名称。字段名及字段类型可自己定义。日志内容如下00000012982199073774412|[网易新闻]|8|3000100|0759422001082479|[今日头条|1|1130100|2982199073774412|[网易新闻]|1|1143000|07594220010824791|今日头条]1|12现有图书管理数据库的三个数据模型如下图书数据表名BOOK读者数据表名READER借阅记录数据表名BORROW LOG1创建图书管理库的图书、读者和借阅三个基本表的表结构。请写出建表语句。Oracle实现2找出姓李的读者姓名NAME和所在单位COMPANY。Oracle 实现3查找“高等教育出版社”的所有图书名称BOOK_NAME及单价PRICE结果按单价降序排序。Oracle实现4查找价格介于10元和20元之间的图书种类(SORT出版单位OUTPUT和单价PRICE结果按出版单位OUTPUT和单价PRICE升序排序。Oracle 实现5查找所有借了书的读者的姓名NAME及所在单位COMPANY。Oracle实现6求”科学出版社”图书的最高单价、最低单价、平均单价。Oracle实现7找出当前至少借阅了2本图书大于等于2本的读者姓名及其所在单位。Oracle实现8考虑到数据安全的需要需定时将“借阅记录”中数据进行备份请使用一条SQL语句在备份用户bak下创建与“借阅记录”表结构完全一致的数据表BORROW_LOG_BAK.井且将“借阅记录”中现有数据全部复制到BORROW_1.0G_ BAK中。Oracle实现9现在需要将原Oracle数据库中数据迁移至Hive仓库请写出“图书”在Hive中的建表语句Hive实现提示列分隔符|数据表数据需要外部导入分区分别以monthpart、daypart 命名10Hive中有表A现在需要将表A的月分区 201505 中 userid为20000的userdinner字段更新为bonc8920其他用户userdinner字段数据不变请列出更新的方法步骤。Hive实现提示Hlive中无update语法请通过其他办法进行数据更新7.SQL优化题1SELECT TANAME FROM TABLES HERE TABNAME SELECT TABNAME FROM TABCOLUMNS WERE VERSION604AND DBVERSELECT DB_VER FROM TABCOLMNS HERE VERSION 604考虑到过多子查询造成SQL性能下降请针对上述SQL.语句进行优化提升执行效率Oracle实现UPDATE EMP SET EMPCAT SELECT MAXCATEGORYFROM EMPCATEGORIESSALRANGESELECT MAXSAL RANGEFROM EMPCATEGORIESWHERE EMPDEPT 0020在含有子查询的SQL语句中过多对表的查询会造成SQL性能下降请针对上述SQL.语句进行优化提升执行效率Oracle实现EMP表数据量很大userid存在空值以下语句会造成数据处理结果存储倾斜请提供优化策略解决数据倾斜问题。注数据倾斜由关联字段空值引起Hive实现SELECT* FROM EXP A JOIN DEPT B ON A.USERID B.USERID2Hbase 常用基本命令创建表添加记录查看记录删除记录。文章来源尚硅谷大数据培训