Python机器学习原理与算法实现
上QQ阅读APP看书,第一时间看更新

前言

Python作为一门简单、易学、易读、易维护、用途广泛、速度快、免费、开源的主流编程语言,广泛应用于Web开发、大数据处理、人工智能、云计算、爬虫、游戏开发、自动化运维开发等各个领域,是众多高等院校学生的必修基础课程,也是堪与Office办公软件应用比肩的职场人士的必备技能。但不少学生或职场人士总面临这样一种窘境:数字化转型大背景、大趋势下,感觉非常有必要学习Python等分析工具,但在真正通过一本书学习Python的各种语言规则时,往往体验不到学习知识的乐趣,翻看个别章节后即将其束之高阁。造成这种情况的根本原因在于没有结合本职研究或工作需求、没有以解决问题为目标和导向开展学习。对很多读者来说,学以致用的一个非常好的出口就是使用Python进行机器学习。数字化转型浪潮下,机器学习的各种算法早已不再局限于概念普及和理念推广层面,而是真真切切地广泛应用在各类企事业单位的各个领域,从客户分层管理到目标客户选择,从客户满意度分析到客户流失预警,从信用风险防控到精准推荐,各种算法的应用对于企业全要素生产率的边际提升起到了举足轻重的作用。基于上述原因,笔者致力于编写一本Python机器学习原理与算法实现的教学参考书,将Python与机器学习应用相结合,通过“深入浅出讲解机器学习原理—贴近实际精选操作案例—详细演示Python操作及代码含义—准确完整解读分析结果”的一站式服务,旨在写出让读者“能看得懂、学得进去、真用得上”的机器学习图书,献给新时代的莘莘学子和职场奋斗者。

本书内容

第1章为Python入门知识,内容包括Python简介与本书教学理念,Python下载与安装,Python注释、基本输出与输入,Python变量和数据类型、Python序列、Python列表、Python元组、Python字典、Python集合、Python字符串。

第2章为Python进阶知识,内容包括Python流程控制语句、Python函数、Python模块和包、Python numpy模块数组、Python pandas模块序列与数据框、Python对象与类、Python数据读取、Python数据检索、Python数据缺失值处理、Python数据重复值处理、Python数据行列处理。

第3章为机器学习介绍,内容包括机器学习概述,机器学习术语,机器学习分类,机器学习中误差、泛化、过拟合与欠拟合、偏差、方差与噪声等重要概念,以及常用的机器学习性能量度和模型评估方法,机器学习的项目流程。

第4章为线性回归算法,主要介绍线性回归算法的基本原理及Python实现,还介绍了描述性分析、图形绘制、正态性检验、相关性分析等经典统计分析方法在Python中的实现。

第5章为二元Logistic回归算法,主要介绍二元Logistic回归算法的基本原理,并结合具体实例讲解该算法在Python中的实现与应用。

第6章为多元Logistic回归算法,主要介绍多元Logistic回归算法的基本原理,并结合具体实例讲解该算法在Python中的实现与应用。

第7章为判别分析算法,内容包括线性判别分析和二次判别分析两种判别分析算法的基本原理,并结合具体实例讲解这两个算法在Python中的实现与应用。

第8章为朴素贝叶斯算法,讲解贝叶斯算法的基本原理、贝叶斯定理、朴素贝叶斯算法的基本原理、拉普拉斯修正、朴素贝叶斯算法分类及适用条件,并结合具体实例讲解这些算法在Python中的实现与应用。

第9章为高维数据惩罚回归算法,主要讲解高维数据惩罚回归算法的基本原理、岭回归、Lasso回归、弹性网回归、惩罚回归算法的选择,并结合具体实例讲解这些算法在Python中的实现与应用。

第10章为K近邻算法,主要讲解K近邻算法的基本原理,并结合具体实例讲解该算法解决分类问题和回归问题的Python实现与应用。

第11章为主成分分析算法,主要讲解主成分分析算法的基本原理、数学概念、主成分特征值、样本的主成分得分、主成分载荷等内容,并结合具体实例讲解该算法在Python中的实现与应用。

第12章为聚类分析算法,主要讲解聚类分析算法的基本原理、划分聚类分析、层次聚类分析、样本距离的测度等内容,并结合具体实例讲解这些算法在Python中的实现与应用。

第13章为决策树算法,主要讲解决策树算法的概念与原理、特征变量选择及其临界值确定方法、决策树的剪枝、包含剪枝决策树的损失函数、变量重要性等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。

第14章为随机森林算法,主要讲解集成学习的概念与分类、装袋法的概念与原理、随机森林算法的概念与原理、随机森林算法特征变量重要性量度、部分依赖图与个体条件期望图等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。

第15章为提升法,主要讲解提升法的概念与原理、AdaBoost、梯度提升法、回归问题损失函数、分类问题损失函数、随机梯度提升法、XGBoost算法等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。

第16章为支持向量机算法,主要讲解线性可分,硬间隔分类器的概念、原理解释与求解步骤,软间隔分类器的概念、原理解释与求解步骤,核函数,多分类问题支持向量机,支持向量回归等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。

第17章为神经网络算法,主要讲解神经网络算法的基本思想、感知机、多层感知机、神经元激活函数、误差反向传播算法、万能近似定理及多隐藏层优势、BP算法过拟合问题的解决等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。

本书特色

通过“入门—进阶—应用”的方式循序渐进地讲解Python。前两章分别讲解Python入门知识和Python进阶知识,使大家能够基本掌握Python的基础知识与进阶应用,后续章节在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释,使读者能够真正理解各种代码的含义,从而可以灵活运用于自身的科研或应用研究。

通过“复杂算法模型简单化、抽样理论概念具象化”深入浅出的方式讲解机器学习。本书尽可能用图像化、案例化的方式剖析各种算法的基本原理、适用条件,使读者真的能够看得明白、学得进去,避免在复杂的数学公式推导面前耗尽了所有的学习热情,苦技能虽好却不能为己所用。同时也做到了不失专业深度,使读者真正能够掌握各种算法的精髓,能根据自身需要选取算法、优化代码、科学调参。

实现了Python与机器学习应用的深度融合。本书以学以致用为桥梁实现了Python与机器学习之间的高效联动协同,使读者通过本书的学习能够同时掌握Python语言、机器学习这两大专业利器,达到“一箭双雕”的学习效果,有效提升自己的科研与应用水平。

本书提供的PPT与源代码、思维导图、视频教学可通过扫描下面二维码获取:

PPT与源代码

思维导图

视频(第1章)

视频(第2章)

视频(第3~4章)

视频(第5~9章)

视频(第10~15章)

视频(第16~17章)

如果下载有问题,请发送电子邮件至booksaga@126.com,邮件主题为“Python机器学习原理与算法实现代码”。

本书在写作过程中也吸收了前人的研究成果,第二作者张甜博士也曾于2020年1月师从山东大学陈强教授系统学习了机器学习课程,在此一并表示感谢!

由于笔者水平有限,书中难免存在疏漏之处,诚请各位同仁和广大读者批评指正,并提出宝贵的意见。

笔 者

2023年1月