网站建设资讯

NEWS

网站建设资讯

hadoop工程包括哪些模块

本篇内容介绍了“hadoop工程包括哪些模块”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

创新互联长期为超过千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为卧龙企业提供专业的网站设计制作、成都做网站,卧龙网站改版等技术服务。拥有十余年丰富建站经验和众多成功案例,为您定制开发。

    Apache Hadoop工程已发展成一个可靠的(reliable),轻量的(scalable),分布式计算(distributed computing)的开源软件。
 
    Apach Hadoop软件库是一个允许用简单的程序模型对大数据集进行跨计算机群集的分布式处理的框架。它的目的(designed to)在于
将计算能力从单个服务器扩充到成千上万台机器,每个机器都可以提供本地计算和存储。比起依赖单个硬件提供高可用性,
这个库实现了有目的性的检测和处理应用程序层的故障,因而在计算机群集上提供了非常高的可用**,单个硬件易于(prone to)
失败!

    这个工程包括以下模块:

  • Hadoop Common: 支持其它Hadoop模块的通用工具common utilities).

  • Hadoop Distributed File System (HDFS?): 在访问应用数据时提供高吞吐量(high-throughput)的一个分布式文件系统(distributed file system)

  • Hadoop YARN: 作业调度和群集资源管理的框架

  • Hadoop MapReduce: 基于YARN的大型数据集并发处理(parallel processing)系统


在Apache上其它和Hadoop有关联的项目:

  • Ambari?: 一个基于web的工具,配置(provisioning),管理(managing)和监控,支持Apache Hadoop生态圈,包括Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig和Sqoop等. Ambari也提供简洁的图表去观察群集的运行状况,比如热点图(heatmaps)和用友好的用户界面来提供监测MapReduce, Pig and Hive 应用的视觉特性并诊断其性能特性。

  • Avro?: 一个数据序列化(serialization)系统

  • Cassandra?: 一个没有单点故障的轻量级的多主(multi-master)数据库

  • Chukwa?: 管理大型分布式系统的数据集系统

  • HBase?: 一个为大型表提供结构化数据存储的轻量级的分布式数据库bles.

  • Hive?: 提供数据摘要和简单查询的数据仓库工具

  • Mahout?: 一个轻量级的机器学习(machine learning)和数据挖掘(data mining)库

  • Pig?: 一个并行parallel computation计算的高级(high-level)数据流语言和支持框架 .

  • Spark?: Hadoop数据的一个快速通用的计算引擎(general compute engine). Spark是一个简单和富有表现力的编程模型(expressive programming model),它提供了大范围的应用,包括ETL,机器学习(machine learning),流水式处理( stream processing)和图形计算(graph computation).

  • Tez?: 一个构建于Hadoop YARN的广义数据流编程框架, 提供强大的,灵活的引擎去运行一个任意的DAG任务去处理批处理和交互用例的数据. Tez最先被Hive,Pig和Hadoop生态系统上其它框架采用,也被其它商业软件(如:ETL 工具),作为潜在的执行引擎替换Hadoop MapReduce.

  • ZooKeeper?: 一个高性能的分布式应用协调服务(coordination service)

“hadoop工程包括哪些模块”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!


本文题目:hadoop工程包括哪些模块
URL链接:http://cdweb.net/article/iedpip.html