深入大型数据集:并行与分布化Python代码
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 你将从本书中学到什么

在本书中,你将学习一种使并行化变得容易的编程风格。你将学习如何编写可伸缩的并行代码,这些代码在一台机器上的工作效果与在数千台机器上一样好。你会学习到

■ 如何把大问题分成多个小问题。

■ 如何使用map函数和reduce函数。

■ 如何在你的个人计算机上并行运行程序。

■ 如何在分布式云环境中并行运行程序。

你还将学习两个用来处理大型数据集的流行框架:Apache Hadoop和Apache Spark。

本书是为那些已经可以编写数据转换程序,以及现在需要扩展这些程序的程序员而编写的。他们需要能够处理更多的数据并且更快地完成数据的处理。