深入大型数据集：并行与分布化Python代码最新章节全文无弹窗在线阅读-QQ阅读男生武侠网

本书共分3部分，主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格，以及Python中基础的map和reduce函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架，以及如何使用mrjob库来编写Hadoop作业，如何实现PageRank算法，如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识，包括如何通过boto3的Python库将文件上传到AWSS3服务，以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。本书适合有一定Python编程基础，且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

译者：张若飞

上架时间：2021-01-01 00:00:00

出版社：电子工业出版社

上海阅文信息技术有限公司已经获得合法授权，并进行制作发行

加书架

下载

听书

深入大型数据集：并行与分布化Python代码

最新章节

Python编程：从入门到实践

Python编程：从入门到实践（第2版）

C Primer Plus（第6版）中文版【最新修订版】

区块链架构之美：从比特币、以太坊、超级账本看区块链架构设计

Python从入门到精通

Python机器学习基础教程

Python数据科学应用从入门到精通

小学生Python创意编程（视频教学版）

Java EE企业级应用开发教程：Spring+Spring MVC+MyBatis（第2版）

Python数据分析与挖掘实战（第3版）

FFmpeg开发实战：从零基础到短视频上线

大数据可视化编程和应用

Go语言Hyperledger区块链开发实战

HTML5从入门到精通（第4版）

On Java：中文版·基础卷