对hadoop初学者来说,或者说正在使用hadoop的开发者来说,hadoop环境的搭建不是一件省心的事,甚至很多博客上都重要的事说三便“不要花精力在搭建环境之上”,可见很多人在搭建环境时会遇到很多问题,并且会花费很多时间,本文将把所有的“玩法”都过一下,相信看完之后,你心里就有数了,将会依据自己的需求来选择合适的搭建方式。
让客户满意是我们工作的目标,不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户,将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴,公司提供的服务项目有:域名与空间、虚拟空间、营销软件、网站建设、新林网站维护、网站推广。
部署方式 | 优势 | 不足 | 适合场合 |
Apache Hadoop 单机 | 单台机器即可 简单 所需组件少 | 一般不用于生产 无HA 无法体现分布式 | 初学 开发测试 小规模试用 |
Apache Hadoop 集群 | 灵活的版本选择 自主可控性较好 应用场景广泛 | 需专业人员管理 组件间兼容性差 配置、运维复杂 | 学习 开发测试 生产环境 |
CDH或 HDP | Web管理和监控 开源厂商支持 兼容性和稳定高 | 仍需大量配置 受制于厂商 更新版本稍慢 | 开发测试 生产环境 |
其它厂商类CDH | 有自己扩展特性 厂商支持 | 非免费 严重受制于厂商 | 生产环境 |
编写shell部署运维脚本 | 自控性好 配置简单 灵活性好 | 需编写脚本 测试费时 需不断完善 | 学习 开发测试 生产环境 |
通过上面的对比,总结如下:
初学hadoop,希望快速开始,采用第一种apache单机,无基础的情况下1个小即可完成,有linux基础除掉安装虚拟机、linux的时间,10分钟可完成;
用于生产环境或测试环境,采用第三种cdh方式,管理集群都是图形化,但是缺少了对内部深层次的了解;
对于深入学习者,已经有一定经验和积累了,可以选最后一种,不断可以深入的了解内部各进程依赖关系,还可以提升shell脚本文件编程水平。
关于每一种环境的详细搭建方式,将会分几个章节在后面分别介绍,另外如果可能也会录制一些免费视频,详细的讲解一下操作步骤。