网站关键词描述,公众号注册官网,深圳航空公司官网,重庆市工程建设信息网官网查询见 : http://lxw1234.com/archives/2016/11/782.htm 如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍#xff0c;那么你应该已经具备以下技能和知识点#xff1a;
0和Hadoop2.0的区别#xff1b;MapReduce的原理#xff08;还是那个…见 : http://lxw1234.com/archives/2016/11/782.htm 如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍那么你应该已经具备以下技能和知识点
0和Hadoop2.0的区别MapReduce的原理还是那个经典的题目一个10G大小的文件给定1G大小的内存如何使用Java程序统计出现次数最多的10个单词及次数HDFS读写数据的流程向HDFS中PUT数据从HDFS中下载数据自己会写简单的MapReduce程序运行出现问题知道在哪里查看日志会写简单的SELECT、WHERE、GROUP BY等SQL语句Hive SQL转换成MapReduce的大致流程Hive中常见的语句创建表、删除表、往表中加载数据、分区、将表中数据下载到本地 从上面的学习你已经了解到HDFS是Hadoop提供的分布式存储框架它可以用来存储海量数据MapReduce是Hadoop提供的分布式计算框架它可以用来统计和分析HDFS上的海量数据而Hive则是SQL On HadoopHive提供了SQL接口开发人员只需要编写简单易上手的SQL语句Hive负责把SQL翻译成MapReduce提交运行。 此时你的”大数据平台”是这样的 那么问题来了海量数据如何到HDFS上呢 第三章把别处的数据搞到Hadoop上 此处也可以叫做数据采集把各个数据源的数据采集到Hadoop上。 3.1 HDFS PUT命令 这个在前面你应该已经使用过了。 put命令在实际环境中也比较常用通常配合shell、python等脚本语言来使用。 建议熟练掌握。 3.2 HDFS API HDFS提供了写数据的API自己用编程语言将数据写入HDFSput命令本身也是使用API。 实际环境中一般自己较少编写程序使用API来写数据到HDFS通常都是使用其他框架封装好的方法。比如Hive中的INSERT语句Spark中的saveAsTextfile等。 建议了解原理会写Demo。 3.3 Sqoop Sqoop是一个主要用于Hadoop/Hive与传统关系型数据库Oracle/MySQL/SQLServer等之间进行数据交换的开源框架。 就像Hive把SQL翻译成MapReduce一样Sqoop把你指定的参数翻译成MapReduce提交到Hadoop运行完成Hadoop与其他数据库之间的数据交换。 自己下载和配置Sqoop建议先使用Sqoop1Sqoop2比较复杂。 了解Sqoop常用的配置参数和方法。 使用Sqoop完成从MySQL同步数据到HDFS 使用Sqoop完成从MySQL同步数据到Hive表 PS如果后续选型确定使用Sqoop作为数据交换工具那么建议熟练掌握否则了解和会用Demo即可。 3.4 Flume Flume是一个分布式的海量日志采集和传输框架因为“采集和传输框架”所以它并不适合关系型数据库的数据采集和传输。 Flume可以实时的从网络协议、消息系统、文件系统采集日志并传输到HDFS上。 因此如果你的业务有这些数据源的数据并且需要实时的采集那么就应该考虑使用Flume。 下载和配置Flume。 使用Flume监控一个不断追加数据的文件并将数据传输到HDFS PSFlume的配置和使用较为复杂如果你没有足够的兴趣和耐心可以先跳过Flume。 3.5 阿里开源的DataX 之所以介绍这个是因为我们公司目前使用的Hadoop与关系型数据库数据交换的工具就是之前基于DataX开发的非常好用。 可以参考我的博文《异构数据源海量数据交换工具-Taobao DataX 下载和使用》。 现在DataX已经是3.0版本支持很多数据源。 你也可以在其之上做二次开发。 PS有兴趣的可以研究和使用一下对比一下它与Sqoop。 如果你认真完成了上面的学习和实践此时你的”大数据平台”应该是这样的 如果觉得本博客对您有帮助请 赞助作者 。 第四章把Hadoop上的数据搞到别处去 前面介绍了如何把数据源的数据采集到Hadoop上数据到Hadoop上之后便可以使用Hive和MapReduce进行分析了。那么接下来的问题是分析完的结果如何从Hadoop上同步到其他系统和应用中去呢 其实此处的方法和第三章基本一致的。 4.1 HDFS GET命令 把HDFS上的文件GET到本地。需要熟练掌握。 4.2 HDFS API 同3.2. 4.3 Sqoop 同3.3. 使用Sqoop完成将HDFS上的文件同步到MySQL 使用Sqoop完成将Hive表中的数据同步到MySQL 4.4 DataX 同3.5. 如果你认真完成了上面的学习和实践此时你的”大数据平台”应该是这样的 以下章节正在整理中请持续关注 lxw的大数据田地 第五章快一点吧我的SQL 第六章一夫多妻制 第七章越来越多的分析任务 第八章我的数据要实时 第九章我的数据要对外 第十章牛逼高大上的机器学习 写给大数据开发初学者的话1 写给大数据开发初学者的话2 第三章把别处的数据搞到Hadoop上 第四章把Hadoop上的数据搞到别处去 写给大数据开发初学者的话3 第五章快一点吧我的SQL 第六章一夫多妻制 写给大数据开发初学者的话4 第七章越来越多的分析任务 第八章我的数据要实时 写给大数据开发初学者的话5 第九章我的数据要对外 第十章牛逼高大上的机器学习