WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > Spark/Shark > 正文
Hadoop vs Apache Spark 5件事需要了解
作者: 佚名 2015-12-16 20:19 【比特网】

讨论大数据的时候,你可能会听到提及Hadoop 和 Apache Spark的话题,这里有一些简单的知识,你需要了解他们之间的不同。

1.他们做的事情不同

Hadoop 和 Apache Spark都是大数据框架中用到的东西,但是他们并不是服务于同样的目的。

Hadoop是本质上是一个分布式数据基础架构,他能够帮你利用商用服务器搭建一个集群,这意味着你不需要购买昂贵的专用硬件就能搭建横跨多个节点的海量数据集。他还能够跟踪索引这些数据,更有力的帮你实现大数据的处理和分析。

Spark是一种数据处理工具,运行在这些分布式数据急群众,他不是用来做分布式存储的。

2.你们可以单独的使用任何一个

Hadoop被称为分布式文件系统,他不仅包含存储组件,同时还有MapReduce处理元件,所以你在处理数据的时候并不一定需要Spark。当然,你也可以使用Spark。

Spark并不是只能在Hadoop中运行,他还可以运行在基于云的数据平台。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。

第2页:Spark更快

3.Spark更快

由于数据处理方式,Spark要比MapReduce快很多。

Spark 是一种与 MapReduce相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

4:你可能不需要MapReduce的速度。

如果你的数据操作和报告大多数情况下是静态的,那么你可能并不需要MapReduce,你只需要等待批处理模式处理器就可以了。

但是如果,你需要从传感器上做分析的数据。就想一个工厂,或者需要从多个操作应用程序中分析数据,那么你可能需要的Spark,Spark常见的应用包括实时的营销活动,网上促销的产品,网络安全分析和机器日志监控。

5:故障恢复:

它们是不同的,Hadoop是弹性系统的错误或故障,因为每次恢复操作后的数据被写入磁盘。

但Spark具有类似于内置内存的分析,这些数据对象可以存储在内存或磁盘。


标签:磁盘 Spark/Shark 集群 

了不起的IT经理
LecVideo
论坛与活动