通过5个例子让你学会Pandas中的字符串过滤

2023-06-19 原文

要处理文本数据，需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息，通常需要执行几个预处理和过滤步骤。

Pandas 库有许多可以轻松简单地处理文本数据函数和方法。在本文中，我介绍将学习 5 种可用于过滤文本数据（即字符串）的不同方法：

是否包含一系列字符
求字符串的长度
判断以特定的字符序列开始或结束
判断字符为数字或字母数字
查找特定字符序列的出现次数

首先我们导入库和数据

 import pandas as pd
 df = pd.read_csv("example.csv")
 df

我们这个样例的DataFrame 包含 6 行和 4 列。我们将使用不同的方法来处理 DataFrame 中的行。第一个过滤操作是检查字符串是否包含特定的单词或字符序列，使用 contains 方法查找描述字段包含“used car”的行。但是要获得pandas中的字符串需要通过 Pandas 的 str 访问器，代码如下：

 df[df["description"].str.contains("used car")]

但是为了在这个DataFrame中找到所有的二手车，我们需要分别查找“used”和“car”这两个词，因为这两个词可能同时出现，但是并不是连接在一起的：

 df[df["description"].str.contains("used") &
    df["description"].str.contains("car")]

可以看到最后一行包含“car”和“used”，但不是一起。

下一个方法是根据字符串的长度进行过滤。假设我们只对超过 15 个字符的描述感兴趣。可以使用内置的 len 函数来执行此操作，如下所示：

df[df["description"].apply(lambda x: len(x) > 15)]

这里就需要编写了一个 lambda 表达式，通过在表达式中使用 len 函数获取长度并使用apply函数将其应用到每一行。执行此操作的更常用和有效的方法是通过 str 访问器来进行：

df[df["description"].str.len() > 15]

我们可以分别使用startswith和endswith基于字符串的第一个或最后一个字母进行过滤。

df[df["lot"].str.startswith("A")]

这个方法也能够检查前 n 个字符。例如，我们可以选择以“A-0”开头的行：

df[df["lot"].str.startswith("A-0")]

Python 的内置的字符串函数都可以应用到Pandas DataFrames 中。例如，在价格列中，有一些非数字字符，如 $ 和 k。我们可以使用 isnumeric 函数过滤掉。

df[df["price"].apply(lambda x: x.isnumeric()==True)]

同样如果需要保留字母数字（即只有字母和数字），可以使用 isalphanum 函数，用法与上面相同。

count 方法可以计算单个字符或字符序列的出现次数。例如，查找一个单词或字符出现的次数。

我们这里统计描述栏中的“used”的出现次数：

 df["description"].str.count("used")
 
 # 结果
 0    1
 1    0
 2    1
 3    1
 4    1
 5    0
 Name: description, dtype: int64

如果想使用它进行条件过滤，只需将其与一个值进行比较，如下所示：

 df[df["description"].str.count("used") < 1]

非常简单吧

本文介绍了基于字符串值的 5 种不同的 Pandas DataFrames 方式。虽然一般情况下我们更关注数值类型的数据，但文本数据同样重要，并且包含许多有价值的信息。能够对文本数据进行清理和预处理对于数据分析和建模至关重要。

附：pandas 中按条件过滤字符串类型的值

一、使用~对字符串值取反：

1、测试数据

test_df
    total_bill    tip    smoker    day    time    size    tip_pct
57    26.41    1.50    No    Sat    Dinner    2    0.056797
0    16.99    1.01    No    Sun    Dinner    2    0.059447
48    28.55    2.05    No    Sun    Dinner    3    0.071804
146    18.64    1.36    No    Thur    Lunch    3    0.072961
130    19.08    1.50    No    Thur    Lunch    2    0.078616
237    32.83    1.17    Yes    Sat    Dinner    2    0.035638
102    44.30    2.50    Yes    Sat    Dinner    3    0.056433
187    30.46    2.00    Yes    Sun    Dinner    5    0.065660
210    30.06    2.00    Yes    Sat    Dinner    3    0.066534
240    27.18    2.00    Yes    Sat    Dinner    2    0.073584

2、需求：取出 day 字段中值不为 ‘Sta’,‘Sun’ 的记录

test_df[~test_df['day'].str.contains('|'.join(['Sat', 'Sun']))]
    total_bill    tip    smoker    day    time    size    tip_pct
146    18.64    1.36    No    Thur    Lunch    3    0.072961
130    19.08    1.50    No    Thur    Lunch    2    0.078616

总结

到此这篇关于通过5个例子让你学会Pandas中字符串过滤的文章就介绍到这了,更多相关Pandas字符串过滤内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

通过5个例子让你学会Pandas中的字符串过滤的更多相关文章

Pandas如何将表格的前几行生成html实战案例

这篇文章主要介绍了Pandas如何将表格的前几行生成html实战案例，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
简单总结JavaScript中的String字符串类型

就像其他语言那样,js中的字符串类型可以表示一串字符,由双引号包住,这里简单总结JavaScript中的String字符串类型的一些基础知识
pandas如何计算同比环比增长

这篇文章主要介绍了pandas如何计算同比环比增长，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
python sklearn与pandas实现缺失值数据预处理流程详解

对于缺失值的处理，主要配合使用sklearn.impute中的SimpleImputer类、pandas、numpy。其中由于pandas对于数据探索、分析和探查的支持较为良好，因此围绕pandas的缺失值处理较为常用
iOS中字符串换行的实现方法

大家应该都有所体会，单行字符数过多会影响美观，所以下面这篇文章主要给大家介绍了关于iOS中字符串换行的实现方法，文中通过图文介绍的非常详细，需要的朋友可以参考下
php获取指定数量随机字符串的方法

这篇文章主要介绍了php获取指定数量随机字符串的方法,涉及php针对数组的遍历及字符串运算相关操作技巧,需要的朋友可以参考下
基于jQuery对象和DOM对象和字符串之间的转化实例

下面小编就为大家带来一篇基于jQuery对象和DOM对象和字符串之间的转化实例。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
详解PHP用substr函数截取字符串中的某部分

这篇文章主要介绍了详解PHP用substr函数截取字符串中的某部分,非常具有实用价值，需要的朋友可以参考下。
Python格式化输出字符串的五种方法总结

Python语言有许多优点，常用于不同的领域，如数据科学、web开发、自动化运维等。本文将学习如何使用字符串中内置的方法来格式化字符串，感兴趣的可以了解一下
Javascript新手入门之字符串拼接与变量的应用

这篇文章主要给大家介绍了关于Javascript新手入门之字符串拼接与变量应用的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教