前言

我是在2018年夏天想到写这本书的。当时我和一些才华横溢的开发人员一起工作，他们在职业生涯的大部分时间里都没有学习过如何编写可伸缩的代码。我意识到，很多“大数据”的技术，或者在本书中被称为“大型数据集”问题的技术，都是专门为那些想要解决这些问题的人准备的。因为企业中存在很多这样的问题，而且在这种规模下产生数据的机制已经相对成熟，所以关于这个主题的图书往往是用作为工具的企业语言（比如Java语言）编写的。

本书有一些不同。我注意到越来越多的大型数据集问题正在通过分布式的方式进行处理。这里的分布式不是指分布式计算——当然也不是指员工会分散在各地来完成这些工作。个人开发者或小型开发团队，通常在快速的原型环境中或者使用快速开发语言（比如Python）来处理大型数据集。

我希望本书能够将可伸缩和分布式编程技术带给更广泛的开发人员。我们生活在一个大数据日益盛行的时代。并行化和分布式编程技能对开发人员的日常工作变得越来越重要。越来越多的程序员正面临着由于数据集太大而导致的问题。我希望通过本书，开发人员能够掌握解决这些大数据问题的工具，并将重点放在那些让他们最初对编程感兴趣的问题上。