当前位置: 首页 > news >正文

山西省建设工程招投标监督网站随州网站建设外包公司

山西省建设工程招投标监督网站,随州网站建设外包公司,国内外贸平台,长沙手机网站公司Hadoop学习之整体介绍及环境搭建 1 大数据概述 1.1 什么是大数据 数据(data)是事实或观察的结果#xff0c;是对客观事物的逻辑归纳#xff0c;是用于表示客观事物的未经加 工的的原始素材。 大数据#xff1a;传统处理方式无法解决的不仅大而且复杂的数据集的存储和计算…                              Hadoop学习之整体介绍及环境搭建 1 大数据概述 1.1 什么是大数据 数据(data)是事实或观察的结果是对客观事物的逻辑归纳是用于表示客观事物的未经加 工的的原始素材。 大数据传统处理方式无法解决的不仅大而且复杂的数据集的存储和计算。 1.2 大数据的四个特性 1容量Volume数据的大小决定所考虑的数据的价值和潜在的信息 2种类Variety数据类型的多样性包括文本图片视频音频等 3速度Velocity指获得数据的速度以及处理数据的速度 4价值Value合理运用大数据以低成本创造高价值 容量大种类多速度快产生数据的速度快,要求时延小 价值高 整体价值,单条记录没有价值 1.3 大数据价值应用 将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性可用来政治经济国庆调控、察觉 商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。 2 Hadoop概述 2.1 什么是Hadoop 大数据存储和计算的一整套解决方案,软件平台。 Hadoop 提供的功能利用服务器集群根据用户的自定义业务逻辑对海量数据进行分 布式处理 2.2 Hadoop的核心组件 Common(基础设施)工具包RPC 框架等 HDFSHadoop Distributed File System: 分布式的文件系统(海量数据的存储) MapReduce: 分布式的计算框架(海量数据离线运算) YarnYet Another Resources Negotiato: 分布式资源调度系统(2.x后才有) 2.3 Hadoop的发行版本 apache hadoop: 2008年,初学者入门,简单易入手 cloudera hadoop: 2009年,企业中使用 CDH性能强 hortonworks hadoop: 2011年,文档全面 2.4 Hadoop的相关组件 1Hive基于大数据技术的SQL数据仓库工具可以将结构化的数据文件映射为一张数据库   表并提供简单的sql查询功能可以将sql语句转换为MapReduce任务进行运行。 2HBase基于 Hadoop 的列式分布式 NoSQL 数据库 3Zookeeper分布式协调服务基础组件 4Sqoop数据导入导出工具 5Ambari创建、管理、监视 Hadoop 的集群是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。 6Flume日志数据采集框架 7Oozie/Azkaban工作流调度引擎 8Mahout基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库 2.5 分布式和集群的区别 分布式不同的业务模块部署在不同的服务器上或者同一个业务模块分拆多个子业务部署在不同的服务器上解决高并发的问题。 集群同一个业务部署在多台机器上提高系统可用性 分布式的主要工作是分解任务将职能拆解集群主要的使用场景是为了分担请求的压力也就是在几个服务器上部署相同的应用程序来分担客户端请求主要是简单加机器解决问题对于问题本身不做任何分解。 分布式处理里必然包含任务分解与结果归并。分布式中的某个子任务节点可能由一个集群来代替集群中任一节点都是做一个完整的任务。集群和分布式都是由多个节点组成但是集群之间的通信协调基本不需要而分布式各个节点的通信协调必不可少。 将一套系统拆分成不同子系统部署在不同服务器上分布式然后部署多个相同的子系统在不同的服务器上集群部署在不同服务器上的同一个子系统应做负载均衡。  3 Hadoop完全分布式集群搭建 3.1 准备工作 1准备多个节点比如3台 2修改ip地址,静态ip地址 3修改主机名称和主机映射 4系统启动级别 5防火墙和selinux关闭selinux:linux的安全管理策略文件位置/etc/selinux/config  6同步时间ntpdate ntp1.aliyun.com 7jdk安装 8ssh免密登录 3.2 完全分布式集群搭建 1下载hadoop软件包http://hadoop.apache.org/或http://archive/apache.org/dist/ 2上传到服务器put -r hadoop.tar.gz 3解压 4进程规划例子如下 bigdata01bigdata02bigdata03Namenode  DataNodeDataNodeDataNode  SecondaryNameNode ResourceManager NodeManagerNodeManagerNodeManager 5配置 ①hadoop-env.sh #配置整个hadoop的环境,hadoop进程是jvm进程,配置jdk的环境变量 export JAVA_HOMEjdk的安装目录 ②core-site.xml 默认的文件系统默认file:///本地文件系统 hdfs://ip:port        hdfs集群的入口地址namenode客户端的请求和响应 这个配置说明①使用分布式的文件系统 ②namenode所在的节点为bigdata ③hdfs集群的访问路径: hdfs://hdp01:9000         property                 namefs.defaultFs/name                 valuehdfs://bigdata01:9000/value         /property   临时文件的存储目录         property                 namehadoop.tmp.dir/name                 value/home/refuel/opt/module/hadoop-2.7.7/data/value         /property ③hdfs-site.xml dfs.replication副本数默认3个 dfs.blocksize每个块的大小1.x默认64M   2.x默认128M   namenode的元数据存储的目录         property                 namedfs.namenode.name.dir/name                 value/home/refuel/opt/module/hadoop-2.7.7/data/name/value         /property datanode的lock信息存储的目录         property                 namedfs.datanode.data.dir/name                 value/home/refuel/opt/module/hadoop-2.7.7/data/data/value         /property secondarynamenode的节点配置         property                 namedfs.secondary.http.address/name                 valuebigdata03:50090/value         /property ④mapred.site.xml  将mapred-site.xml.template 复制一份并重命名为mapred-site.xml mapreduce的作业运行平台         property                 namemapreduce.framework.name/name                 valueyarn/value         /property ⑤yarn-site.xml 配置Resourcemanager的主机名         property                 nameyarn.resourcemanager.hostname/name                 valuebigdata02/value         /property NodeManager上运行的附属服务。需配置成mapreduce_shuffle才可运行MapReduce程序         property                 nameyarn.nodemanager.aux-services/name                 valuemapreduce_shuffle/value         /property ⑥slaves 从节点的列表 bigdata01 bigdata02 bigdata03 ⑦环境变量 1/etc/profile 或 2当前用户:           ~/.bashrc            ~/.bash_profile             export HADOOP_HOME/home/hadoop/hadoop-2.7.7          export PATH$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin          source .bash_profile   ⑧发送到其他节点 ⑨hdfs集群(namenode)格式化 hdfs namenode -format (除第一次格式化外其他次格式化需要将logs文件及相关的data文件删除) ⑩启动集群 1.逐个进程启动   hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode   yarn-daemon.sh start/stop ResourceManager/NodeManager 2.整个集群启动(涉及到通信,ssh免密登录)   start-dfs.sh/stop-dfs.sh   start-yarn.sh(必须在rm节点启动)/stop-yarn.sh 3.全部启动   start-all.sh/stop-all.sh
http://wiki.neutronadmin.com/news/104035/

相关文章:

  • 做网站的app有什么作用wordpress 4.4 优化
  • 织梦网站图片设置多大wordpress新浪图床会挂吗
  • 一般购物网站项目网站建设 宁夏
  • 简述网站开发的基本原则众筹网站平台建设
  • 新建网站百度搜不到备案的网站名称能重复备案吗
  • 上海有名网站建站开发公司网站的seo 如何优化
  • 海口建设工程信息网站网站 数据备份
  • 制作网站的过程是对信息的可以免费进的服务器网站
  • 专注于响应式网站开发哈尔滨网站推广公司
  • 属于教育主管部门建设的专题资源网站是c2c网站管理系统下载
  • 介绍好的免费网站模板下载网站备案ip地址
  • 商务网站模板下载怎么创建一个自己的网站
  • 什么是云速建站服务视频拍摄和剪辑怎么学
  • 网站建设属什么合同企云网站建设
  • gta 买房网站建设中如何制作个人手机网站
  • 安防网站源码软件开发流程流程图
  • 网站框架模板广州冼村房价多少钱
  • 网站建设代码标准佛山有哪几个区
  • 高端网站设计公司排行榜动画制作软件排行榜
  • 建设一个购物网站多少钱wordpress换中文
  • 网站开发专业就业好不好金寨县重点工程建设管理局网站
  • 旅游网站建设技术解决方案男女生做羞羞事情的网站
  • 株洲网站建设开发网站网址没有被百度收录
  • 纯html网站模板四川省凉亭建设工程有限公司网站
  • 网站模块在线制作教程为什么wordpress在ie打开很慢
  • 站长之家网站建设制作全国建筑工程网
  • 昆明网站建设天锐科技网站建设 事业单位 安全
  • 黄冈网站制作wordpress 主题 美化版
  • 网站备案 深圳小微企业注册流程及费用
  • 竞猜网站模板wordpress后台不能登陆