深入大型数据集：并行与分布化Python代码

(美)J.T.沃勒翰

更新时间：2021-03-04 19:24:44

最新章节：内容简介

封面

版权信息

内容简介

译者序

前言

致谢

关于本书

关于作者

关于封面插图

第1部分

1 入门介绍

1.1 你将从本书中学到什么

1.2 为什么是大型数据集

1.3 什么是并行计算

1.4 map和reduce编程风格

1.5 可提升速度和可扩展性的分布式计算

1.6 Hadoop：一个map和reduce的分布式框架

1.7 提供高性能map、reduce和其他功能的Spark

1.8 AWS Elastic MapReduce——云上的大型数据集

总结

2 加速大型数据集处理任务：map函数和并行计算

2.1 map函数简介

2.2 并行处理

2.3 把它们拼在一起：抓取维基百科（Wikipedia）网站

2.4 练习

总结

3 用来映射复杂转换的函数管道

3.1 辅助函数和函数链

3.2 揭露黑客的通信手段

3.3 Twitter人口预测

3.4 练习

总结

4 用惰性工作流来处理大型数据集

4.1 什么是惰性计算

4.2 一些你需要知道的惰性函数

4.3 理解迭代器：Python惰性能力背后的魔法

4.4 诗歌谜题：如何惰性处理大型数据集

4.5 惰性模拟：模拟渔村场景

4.6 练习

总结

5 使用reduce进行累加操作

5.1 使用reduce函数进行N-X的转换

5.2 reduce函数的三个部分

5.3 你熟悉的归约函数

5.4 同时使用map函数和reduce函数

5.5 使用reduce来分析汽车销售趋势

5.6 加速map和reduce

5.7 练习

总结

6 使用高级并行化来加速map和reduce

6.1 充分利用并行map

6.2 解决并行map和reduce的悖论

总结

第2部分

7 使用Hadoop和Spark处理真正的大型数据集

7.1 分布式计算

7.2 用于批处理的Hadoop

7.3 使用Hadoop找到高分单词

7.4 用于交互式工作流的Spark

7.5 用Spark来记录单词得分

7.6 练习

总结

8 使用Apache Streaming和mrjob处理大数据的最佳实践

8.1 非结构化数据：日志和文档

8.2 使用Hadoop对网球球员进行分析

8.3 通过mrjob工具，以Python的方式来使用HadoopStreaming

8.4 使用mrjob来分析网球比赛

8.5 练习

总结

9 在PySpark中使用map和reduce来实现PageRank算法

9.1 近距离了解PySpark

9.2 在PySpark中使用Elo和PageRank算法对网球选手进行评分

9.3 练习

总结

10 使用机器学习和PySpark进行更快的决策

10.1 什么是机器学习

10.2 机器学习基础与决策树分类器

10.3 PySpark中的快速随机森林分类

总结

第3部分

11 使用Amazon Web Services和S3在云计算环境中处理大型数据集

11.1 AWS Simple Storage Service——针对大型数据集的解决方案

11.2 使用S3在云中存储数据

11.3 练习

总结

12 使用Amazon的Elastic MapReduce在云上实现MapReduce

12.1 在EMR上通过mrjob来运行Hadoop

12.2 在EMR上使用Spark来进行机器学习

12.3 练习

总结

内容简介

更新时间：2021-03-04 19:24:44