
会员
Spark 3.0大数据分析与挖掘:基于机器学习
王晓华 罗凯靖编著更新时间:2023-09-21 10:31:02
最新章节:13.6 小结开会员,本书免费读 >
Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark3.0机器学习框架使用的核心。本书用于Spark3.0ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。本书共分13章,从Spark3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基本概念,以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法;最后通过经典的鸢尾花分析实例,回顾前面的学习内容,实现了一个完整的数据分析与挖掘过程。本书采取实例和理论相结合的方式,讲解细致直观,示例丰富,适合Spark3.0机器学习初学者、大数据分析和挖掘人员,也适合高等院校和培训机构人工智能与大数据相关专业的师生教学参考。
品牌:清华大学
上架时间:2022-03-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
王晓华 罗凯靖编著
主页
最新上架
- 会员
ETL数据整合与处理(Kettle)
本书以Kettle实现ETL流程为目标,将ETL知识点与任务相结合,配套真实案例,深入浅出地介绍了ETL数据整合与处理的相关内容。全书共8章,第1章介绍了ETL概念和ETL工具,让读者在了解ETL相关的概念后,立刻上手ETL工具Kettle;第2~6章介绍了Kettle工具转换相关的组件,包括源数据获取、记录处理、字段处理、高级转换、迁移和装载等内容,内容与ETL流程匹配,能帮助读者快速掌握ETL计算机8.1万字 - 会员
商业分析思维与实践:用数据分析解决商业问题
本书本书基于业务问题,就如何搭建分析框架,厘清分析思路,按照标准分析步骤对数据进行怡当的预处理,选择合适的分析方法和分析模型,使用恰当的分析工具对数据进行分析,以及对分析结果进行可视化和符合业务要求的解读等内容展开讲解,帮助业务专家做出合适的业务判断,制定准确的业务策略。计算机13万字 - 会员
Python数据分析与挖掘实战
本书以Python数据分析与挖掘的常用技术与真实案例相结合的方式,深入浅出地介绍Python数据分析与挖掘的重要内容。本书共11章,分为基础篇(第1~5章)和实战篇(第6~11章),基础篇包括数据挖掘基础、Python数据挖掘编程基础、数据探索、数据预处理、数据挖掘算法基础等基础知识;实战篇包括6个案例,分别为信用卡高风险客户识别、餐饮企业菜品关联分析、金融服务机构资金流量预测、O2O优惠券使用预计算机13.6万字 - 会员
码上行动:利用Python与ChatGPT高效搞定Excel数据分析
本书内容分3个部分共12章。第1-4章主要介绍什么是数据分析,以及Python的编程环境和基础语法知识。第5-9章主要介绍数据处理和分析的各种方法。第10-12章介绍了如何结合Python与Excel在实际工作中进行数据处理与分析操作。计算机8.5万字 - 会员
云计算服务保障体系
云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算能力、存储空间和信息服务。与以往的计算模式不同,云计算环境下,信息安全和服务保障问题更严重、更突出。本书从云计算的安全技术和服务质量评价两个方面论述云计算服务保障的体系架构,安全技术方面主要阐述了基于可信计算的实时度量、基于角色的数据隔离访问、云节点信任链的动态维护模型与验证机制和多级安全访问控制模型;服务计算机9.5万字 - 会员
云数据中心基础
本教材共介绍7个项目,项目1为云数据中心认知,主要介绍了什么是数据中心、云数据中心的特点、体系结构、云数据中心和传统数据中心的区别、绿色数据的概念以及发展趋势。项目2介绍了云数据中心的规划与设计,主要包括云数据中心的设计建设的指标、基础设施的规划以及云数据中心的优化策略。项目3介绍了云数据中心的硬件选型,主要包括服务器设备、网络设备以及存储设备的介绍和选型。项目4到项目6则重点介绍了虚拟化技术、云计算机12.1万字 - 会员
数据要素五论:信息、权属、价值、安全、交易
本书从与数据要素关系最密切的信息、权属、价值、安全、交易等五个维度出发,汇聚不同学科背景的既有文献,整合现有观点,对数据要素的多维特性进行探讨,以丰富人们对数据要素的认知,凝聚共识,澄清数字时代的发展与治理迷思,为未来的相关创新提供起点。计算机14.5万字 - 会员
大数据导论
本书围绕新工科背景下大数据人才培养需求编写,既涵盖了大数据的基础知识,又介绍了大数据分析的相关工具与案例。全书共9章,介绍了大数据采集与预处理、大数据存储与管理、大数据处理与分析、大数据可视化处理流程;重点分析了科大讯飞大数据平台在政务、交通、金融和用户画像等实际场景中的应用,还介绍了大数据实验环境的详细搭建步骤,方便读者快速理解和体验大数据应用技术;最后介绍了大数据治理中法律政策、行业标准建设的计算机14.5万字 - 会员
Python数据分析、挖掘与可视化从入门到精通
本书分为4篇,第1篇是基础入门篇,主要介绍数据分析与挖掘的基本概念及Python语言的数据分析基础;第2篇是数据分析篇,主要介绍常用的数据分析方法;第3篇是数据挖掘篇,主要介绍常用的数据挖掘方法;第4篇是实战应用篇,介绍两个完整的数据分析与挖掘案例。计算机10.9万字
同类书籍最近更新
- 会员
数据隐私与数据治理:概念与技术
本书以《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》为背景,旨在从概念和技术的角度对数据隐私与数据治理进行系统概述。首篇从历史与系统的角度介绍数据隐私与数据治理的基础,后三篇分别侧重大规模数据收集、机器学习,以及数据治理中的隐私问题,介绍其相应的技术基础,总结当下的关键问题与技术方案。本书从全新的数据生态的角度介绍数据隐私与数据治理,在内容介绍上,以技术与算法的讲解为主,数据库12.6万字 - 会员
R语言医学多元统计分析
随着医学研究和信息技术的快速发展,多元数据分析方法广泛应用于医学各个领域。R是一款优秀的开源软件,有着实用的统计计算与可视化功能。本书使用R语言,结合精选的医学实例介绍常用多元统计分析方法。统计分析方法只有在实际应用中才能得到直接、生动的验证。本书强调实战和应用,尽量淡化统计公式的推导和计算过程。通过本书的学习,读者能熟练使用R语言及相关包实现多元统计计算,还能更深入地理解多元数据分析方法。本书可数据库7.4万字 - 会员
业务数智化:从数字化到数智化的体系化解决方案
本书不仅是一本业务数智化体系的科普书,还是作者多年在真实业务场景下进行数智化实践的经验总结。本书系统总结了一套完整的数智化解决方案——3M数智化体系。全书共包括11章,第1~3章主要对数字化和数智化进行介绍;第4~8章围绕3M数智化体系展开,详细说明了业务数智化的适用范围和准备工作、整体构思、思想、落地方法和落地产品;第9~11章介绍了内容行业、O2O行业、生产制造业的数智化实践,以案例形式进行实数据库18.5万字 - 会员
剑指大数据:Flink学习精要(Scala版)
本书基于流行稳定版Flink1.13进行讲解,从Flink数据处理思想开始讲起,带领读者深入理解Flink的基本架构,进而由浅入深结合具体案例进行讲解,详细剖析了Flink中DataStreamAPI的使用,并对Flink中的时间语义、状态、容错机制等重要概念进行了详尽的阐释。同时,本书还对实际开发常用的FlinkSQL、CEP等高层级API进行了细致讲解,以电商网站中的实际应用为场景,提供数据库19.9万字 - 会员
零基础学MySQL数据库管理
本书是一本全面介绍数据库管理的书籍。基础介绍篇介绍了数据库、SQL、MySQL以及数据类型等概念,并介绍了MySQL的安装和查询;实践入门篇详细介绍了数据库的创建、查询、插入、修改和删除等语句的使用方法;中高级篇深入介绍了MySQL关键字、运算操作、日期函数、视图、操作符等,同时介绍了如何对数据库文件进行备份和恢复;应用实战篇以核酸数据库系统为例,介绍业务流程、系统流程、分布式系统、Redis、核数据库3.5万字 - 会员
NoSQL数据库原理(第2版·微课版)
本书对统称为NoSQL的分布式非关系数据库的原理和使用方法进行介绍。第1章,首先介绍NoSQL的起源背景和设计理念,以及相关技术概念。然后介绍大数据技术体系,以及NoSQL在云计算和容器化趋势下的发展。第2章,首先回顾关系型数据库的主要机制,然后介绍NoSQL数据库的常见技术原理,以及NoSQL的常见数据模型等。第3章,对MongoDB进行介绍,重点介绍基本使用方法和编程方法。第4章,对Mongo数据库16万字