会员
Hands-On Big Data Analytics with PySpark
Rudy Lai Bart?omiej Potaczek更新时间:2021-06-24 15:52:53
最新章节:Leave a review - let other readers know what you think开会员,本书免费读 >
ApacheSparkisanopensourceparallel-processingframeworkthathasbeenaroundforquitesometimenow.OneofthemanyusesofApacheSparkisfordataanalyticsapplicationsacrossclusteredcomputers.Inthisbook,youwillnotonlylearnhowtouseSparkandthePythonAPItocreatehigh-performanceanalyticswithbigdata,butalsodiscovertechniquesfortesting,immunizing,andparallelizingSparkjobs.Youwilllearnhowtosourcedatafromallpopulardatahostingplatforms,includingHDFS,Hive,JSON,andS3,anddealwithlargedatasetswithPySparktogainpracticalbigdataexperience.Thisbookwillhelpyouworkonprototypesonlocalmachinesandsubsequentlygoontohandlemessydatainproductionandatscale.ThisbookcoversinstallingandsettingupPySpark,RDDoperations,bigdatacleaningandwrangling,andaggregatingandsummarizingdataintousefulreports.YouwillalsolearnhowtoimplementsomepracticalandproventechniquestoimprovecertainaspectsofprogrammingandadministrationinApacheSpark.Bytheendofthebook,youwillbeabletobuildbigdataanalyticalsolutionsusingthevariousPySparkofferingsandalsooptimizethemeffectively.
品牌:中图公司
上架时间:2019-03-29 00:00:00
出版社:Packt Publishing
本书数字版权由中图公司提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
Rudy Lai Bart?omiej Potaczek
主页
同类热门书
最新上架
- 会员
深入理解InfluxDB:时序数据库详解与实践
时序数据库是一种新型技术,主要用于工业互联网软件建设中。近年来,伴随着物联网技术在智能制造、交通、能源、智慧城市等领域的发展,时序数据库也发展迅速,成为搭建应用的必备数据库之一。《深入理解InfluxDB》从InfluxDB的安装开始,一步步详细介绍InfluxDB的功能及原理,带领读者深入理解以InfluxDB为代表的时序数据库。计算机7.6万字 - 会员
达梦数据库开发实战
达梦数据库是一款非常优秀的国产数据库。本书从实用角度,通过对达梦数据库的体系结构、运行机制的讲解,以及与其他数据库相似功能的对比,帮助读者掌握达梦数据库的基本操作。本书第1章讲解达梦数据库的安装部署;第2章讲述达梦数据库的体系结构,并与Oracle的体系结构进行对比;第3章讲解数据库中最重要的两部分redo和undo;第4章介绍用户管理,重点讲述用户创建和权限;第5章讲解表和索引,并对普通表和堆表计算机10.7万字 - 会员
数据库原理及应用实验:基于GaussDB的实现方法
本书是《数据库原理——GaussDB技术及应用》一书配套的辅助教材。全书共分3部分:第一部分为实验指导,共有13个综合实验,每一个实验都是根据教学目标而设计,详细讲述了每一个实验的实验目的、实验任务及实验步骤,从而培养学生掌握关系数据库管理软件技术与应用的技能;第二部分为习题集,是根据主教材各章节内容编写的习题及习题答案,内容广泛,有填空、选择、简答、设计及实验题等多种形式,利求通过对这些习题的训计算机6.9万字 - 会员
数据要素化时代的数据治理
随着数字化的发展,数据逐渐融入生产、分配、流通、消费和社会服务管理等环节,为数据的拥有者或使用者带来经济效益,成为一种新型的生产要素,给生产方式、生活方式和社会治理方式带来了深刻的变革。本书主要介绍数据要素化时代的数据治理。本书分为5篇。第一篇“数据治理新趋势”介绍DataOps的发展及实践,产业级数据治理新趋势,数据治理的场景化、工程化和智能化,以及数据资产的安全运营。第二篇“新理论、新方法和新计算机12.1万字 - 会员
数据挖掘竞赛实战:方法与案例
本书围绕数据挖掘竞赛,讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧,并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案计算机6.7万字 - 会员
轨迹数据分析方法及应用
随着信息、互联网、社交媒体、卫星定位、基于位置的服务(LocationBasedServices,LBS)等技术的发展,轨迹数据领域迎来了大数据时代。在轨迹大数据背景下,轨迹数据分析的关注度得到持续攀升,它能够借助移动对象的时空特征和移动行为信息发现新知识和模式,从而为智慧城市计算与服务、交通管理与规划、物流管理、智能制造、旅游路径推荐、自然灾害预测与预警、疫情传播监测等诸多领域提供决策支持与计算机9.6万字 - 会员
深入浅出Greenplum分布式数据库:原理、架构和代码分析
本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现计算机7.1万字 - 会员
企业级大数据项目实战:用户搜索行为分析系统从0到1
《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍企业级大数据用户搜索行为分析系统的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解用户行为数据采集模块的开发计算机9万字 - 会员
数据分析师手记:数据分析72个核心问题精解
《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。计算机16.8万字