
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.7 提供高性能map、reduce和其他功能的Spark
我们还将讨论一个分布式计算框架Apache Spark(或者简称Spark)。Spark是Apache Hadoop框架的继任者,它可以在内存中完成更多的工作,而不是通过写入文件的方式。这里的内存指的不是单个机器的内存,而是一组机器集群的内存。
结果是Apache Spark可以比Apache Hadoop快得多。根据Apache自己的估计,Spark的运行速度可以比Hadoop快100多倍;不过,与在单台机器上运行的线性程序相比,两者都可以显著提高程序的运行速度。Spark还提供了一些很好的机器学习库,我们也将对此进行介绍。
最终,是否决定使用Spark或者Hadoop将取决于你自己。和Hadoop一样,Spark也被很多大型组织所使用,例如亚马逊、eBay,甚至NASA(美国国家航空航天局)。这两个框架都是不错的选择。