Python Pandas实现DataFrame合并的图文教程

2023-05-26 原文

一、merge（合并）的语法：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
参数介绍：
left，right：要merge的dataframe或者有name的Series
how：join类型，'left', 'right', 'outer', 'inner'
on：join的key，left和right都需要有这个key
left_on：left的df或者series的key
right_on：right的df或者seires的key
left_index，right_index：使用index而不是普通的column做join
suffixes：两个元素的后缀，如果列有重名，自动添加后缀，默认是('_x', '_y')

二、以关键列来合并两个dataframe

可以看到只有left和right的key1=y的行保留了下来，即默认合并后只保留有共同列项并且值相等行（即交集）。

本例中left和right的k1=y分别有2个，最终构成了2*2=4行

import pandas as pd
left = pd.DataFrame({'A': ['a0', 'a1', 'a2', 'a3'],
                     'B': ['b0', 'b1', 'b2', 'b3'],
                     'k1': ['x', 'x', 'y', 'y']})
right = pd.DataFrame({'C': ['c1', 'c2', 'c3', 'c4'],
                      'D': ['d1', 'd2', 'd3', 'd4'],
                      'k1': ['y', 'y', 'z', 'z']})

left

right

pd.merge(left, right, on=‘k1’)

三、理解merge时数量的对齐关系

one-to-one：一对一关系，关联的key都是唯一的
   比如(学号，姓名) merge (学号，年龄)
   结果条数为：1*1
one-to-many：一对多关系，左边唯一key，右边不唯一key
   比如(学号，姓名) merge (学号，[语文成绩、数学成绩、英语成绩])
   结果条数为：1*N
many-to-many：多对多关系，左边右边都不是唯一的
   比如（学号，[语文成绩、数学成绩、英语成绩]） merge (学号，[篮球、足球、乒乓球])
   结果条数为：M*N

1、one-to-one 一对一关系的merge

left = pd.DataFrame({'sno': [11, 12, 13, 14],
                      'name': ['name_a', 'name_b', 'name_c', 'name_d']
                    })
right = pd.DataFrame({'sno': [11, 12, 13, 14],
                      'age': ['21', '22', '23', '24']
                    })

left

right

# 一对一关系，结果中有4条
pd.merge(left, right, on='sno')

2、one-to-many 一对多关系的merge

注意：数据会被复制

left = pd.DataFrame({'sno': [11, 12, 13, 14],
                      'name': ['name_a', 'name_b', 'name_c', 'name_d']
                    })
right = pd.DataFrame({'sno': [11, 11, 11, 12, 12, 13],
                       'grade': ['语文88', '数学90', '英语75','语文66', '数学55', '英语29']
                     })

left

right

# 数目以多的一边为准
pd.merge(left, right, on='sno')

3、many-to-many 多对多关系的merge

注意：结果数量会出现乘法

left = pd.DataFrame({'sno': [11, 11, 12, 12,12],
                      '爱好': ['篮球', '羽毛球', '乒乓球', '篮球', "足球"]
                    })
right = pd.DataFrame({'sno': [11, 11, 11, 12, 12, 13],
                       'grade': ['语文88', '数学90', '英语75','语文66', '数学55', '英语29']
                     })

left

right

pd.merge(left, right, on=‘sno’)

四、理解left join、right join、inner join、outer join的区别

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                      'C': ['C0', 'C1', 'C4', 'C5'],
                      'D': ['D0', 'D1', 'D4', 'D5']})

left

right

1、inner join，默认

左边和右边的key都有，才会出现在结果里

pd.merge(left, right, how='inner')

2、left join

左边的都会出现在结果里，右边的如果无法匹配则为Null

pd.merge(left, right, how='left')

3、 right join

右边的都会出现在结果里，左边的如果无法匹配则为Null

pd.merge(left, right, how='right')

4、 outer join

左边、右边的都会出现在结果里，如果无法匹配则为Null

pd.merge(left, right, how='outer')

五、如果出现非Key的字段重名怎么办

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                      'A': ['A10', 'A11', 'A12', 'A13'],
                      'D': ['D0', 'D1', 'D4', 'D5']})

left

right

pd.merge(left, right, on='key')

pd.merge(left, right, on='key', suffixes=('_left', '_right'))

总结

到此这篇关于Pandas实现DataFrame合并的文章就介绍到这了,更多相关Pandas DataFrame合并内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Python Pandas实现DataFrame合并的图文教程的更多相关文章

vue+elemet实现表格手动合并行列

这篇文章主要为大家详细介绍了vue+elemet实现表格手动合并行列，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
node下使用UglifyJS压缩合并JS文件的方法

下面小编就为大家分享一篇node下使用UglifyJS压缩合并JS文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
Pandas如何将表格的前几行生成html实战案例

这篇文章主要介绍了Pandas如何将表格的前几行生成html实战案例，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
pandas如何计算同比环比增长

这篇文章主要介绍了pandas如何计算同比环比增长，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
python sklearn与pandas实现缺失值数据预处理流程详解

对于缺失值的处理，主要配合使用sklearn.impute中的SimpleImputer类、pandas、numpy。其中由于pandas对于数据探索、分析和探查的支持较为良好，因此围绕pandas的缺失值处理较为常用
Python中的字典合并与列表合并技巧

这篇文章主要介绍了Python中的字典合并与列表合并技巧，下文围绕主题展开详细的内容介绍，具有一的的参考价值，需要的小伙伴可以参考一下
Javascript实用方法之json合并的场景分析

这篇文章主要介绍了Javascript实用方法之json合并,jQuery 的“extend()”方法有两个原型：合并的方法,分别是浅合并和深度合并，本文通过代码给大家介绍的非常详细，需要的朋友可以参考下
Python使用pandas将表格数据进行处理

这篇文章主要介绍了Python使用pandas将表格数据进行处理，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感兴趣的小伙伴可以参考一下
pandas数据类型之Series的具体使用

本文主要介绍了pandas数据类型之Series的具体使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
通过5个例子让你学会Pandas中的字符串过滤

毋庸置疑Pandas是使用最广泛的Python库之一,它提供了许多功能和方法来执行有效的数据处理和数据分析,下面这篇文章主要给大家介绍了关于如何通过5个例子让你学会Pandas中字符串过滤的相关资料,需要的朋友可以参考下

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教