data:image/s3,"s3://crabby-images/fc533/fc533af01f74edf4243d0c0f698d0ac67c7d0541" alt="Python+Office:轻松实现Python办公自动化"
3.8 数据的合并
数据合并就是将不同数据源或数据表中的数据整合到一起,本节将介绍横向合并merge()函数和纵向合并concat()函数,使用的数据文件为“2020年第二学期学生考试成绩.xls”。
3.8.1 merge()函数:横向合并
Pandas库中的数据可以通过一些方式进行合并。
● merge()函数根据一个或多个键将不同数据集中的行连接起来。
● concat()函数可以沿着某条轴线,将多个对象堆叠到一起。
在介绍数据合并之前,创建一个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/b26ef/b26efe0f1b84b93bbd949a43e97b308834303542" alt="img"
运行上述代码,创建的数据集如下所示。
data:image/s3,"s3://crabby-images/653d6/653d6607660bfd87f4cf9761d434a030a7e3006d" alt="img"
再创建一个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/292c1/292c10a88792c6bf7d46099ba65c5a9be36b178b" alt="img"
运行上述代码,创建的数据集如下所示。
data:image/s3,"s3://crabby-images/7ac63/7ac637289d63afd92fe45190457aa940fc984dc8" alt="img"
使用merge()函数横向合并两个数据集,代码如下:
data:image/s3,"s3://crabby-images/bc96d/bc96d0d26164038841556a737c7f01e5dc609c39" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/4051f/4051fc62d7bcbb6190d0a58278688a08796fcf70" alt="img"
如果没有指明使用哪个列连接,则横向连接会重叠列的列名。可以通过参数on指定合并所依据的关键字段。例如,指定课程,代码如下:
data:image/s3,"s3://crabby-images/19a0a/19a0a3a92806eb0074331afd0043cb9bbe9c1be6" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/7497e/7497eaac8f3460de55889b246d4c81715da232bf" alt="img"
由于演示的需要,下面再创建一个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/5ee6c/5ee6cc076a4c1520f1699cae7cc8da9b3dc4f33d" alt="img"
如果两个数据集中的关键字段名称不同时,则需要使用left_on和right_on,代码如下:
data:image/s3,"s3://crabby-images/fdb77/fdb779812dc991a957c8c8a13588068d2935d8d9" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/3848a/3848a2b017501cd3eea1ed4ce79427cc59d36ada" alt="img"
在默认情况下,横向连接merge()函数使用的是“内连接(inner)”,即输出的是两个数据集的交集。其他方式还有“left”、“right”及“outer”,这个与数据库中的表连接基本类似。内连接代码如下:
data:image/s3,"s3://crabby-images/9ddd1/9ddd1ec5b8e79a6cb7d71582abbdb3735c78d478" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/4a5d4/4a5d405e87c5d818ff5a59ce3aac8360817fe9b1" alt="img"
左连接是左边的数据集不加限制,右边的数据集仅会显示与左边相关的数据,代码如下:
data:image/s3,"s3://crabby-images/6af18/6af18a84fa68dadc1b587b92d875e29cec5cddf7" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/9af12/9af1211857a8117f0cfb9e8195f5c237ead4c079" alt="img"
右连接是右边的数据集不加限制,左边的数据集仅会显示与右边相关的数据,代码如下:
data:image/s3,"s3://crabby-images/feb33/feb338c303531b100d4e59d5430da16173d559e0" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/60349/603494c01e0f368468076cedf20b907642e54e55" alt="img"
外连接输出的是两个数据集的并集,组合了左连接和右连接的效果,代码如下:
data:image/s3,"s3://crabby-images/a9ac6/a9ac6ba353dc772679f71cb84d4a2eb8168c3ffe" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/2674d/2674d3bbc05d7a72bae26ff13ce99e3fb350cf67" alt="img"
3.8.2 concat()函数:纵向合并
在介绍纵向连接之前,创建两个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/1bf63/1bf63daf6638906ee3bc71a2a654a09aff970cd9" alt="img"
使用concat()函数可以实现数据集的纵向合并,代码如下:
data:image/s3,"s3://crabby-images/e29eb/e29eb3f4301b0dcfc03e38879c5f29da9d96691b" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/9ecab/9ecabf42238706ee56664203450f851eb3f12e1d" alt="img"