pandas groupby 和过滤器-白红宇

pandas groupby 和过滤器

阅读量：796 次

发布时间：2023-02-26

本文共 2053 字，大约阅读时间需要 6 分钟。

Pandas groupby() 函数是数据处理中的强大工具，能够帮助我们对数据进行分组操作。以下将详细介绍如何结合过滤器或条件表达式来筛选满足特定条件的分组结果。

导入必要的库

首先，我们需要导入Pandas库：

import pandas as pd

创建数据框

假设我们有以下数据：

data = {
    'Name': ['Tom', 'Nick', 'John', 'Tom', 'John'],
    'Age': [20, 21, 19, 22, 18]
}
df = pd.DataFrame(data)

对数据进行分组

使用 groupby() 函数对 Name 列进行分组：

grouped = df.groupby('Name')

应用过滤器

假设我们希望筛选出年龄大于20的行，可以使用 filter() 方法：

filtered_group = grouped.filter(lambda x: x['Age'] > 20)

这样，filtered_group 中将只包含年龄大于20的行。

详细注释及示例代码

以下是一个完整的示例：

import pandas as pd
# 创建一个包含姓名和年龄的数据框
data = {
    'Name': ['Tom', 'Nick', 'John', 'Tom', 'John'],
    'Age': [20, 21, 19, 22, 18]
}
df = pd.DataFrame(data)
# 使用 groupby() 对姓名进行分组
grouped = df.groupby('Name')
# 定义一个函数用于筛选年龄大于20的行
def filter_age(x):
    """过滤年龄大于20的行。
    
    参数:
        x: 一个DataFrame对象，代表某个组别的数据。
        
    返回:
        满足条件的行组成的DataFrame。
    """
    return x[x['Age'] > 20]
# 应用过滤器
filtered_group = grouped.apply(filter_age)
# 打印结果
print(filtered_group)

测试用例

假设我们有一个包含多列数据的数据框，我们可以根据特定条件对数据进行分组和筛选：

data = {
    'Name': ['Tom', 'Nick', 'John', 'Tom', 'John'],
    'Age': [20, 21, 19, 22, 18],
    'City': ['New York', 'London', 'Paris', 'New York', 'Paris']
}
df = pd.DataFrame(data)
# 对 Name 和 City 进行组合分组
grouped_by_both = df.groupby(['Name', 'City'])
# 筛选出年龄大于20且居住在纽约的行
filtered_group_both = grouped_by_both.filter(lambda x: 
    (x['Age'] > 20) & 
    (x['City'] == 'New York'))
print(filtered_group_both)

应用场景及示例

在人工智能大模型中，我们可以根据用户输入的文本内容进行分类。以下是一个示例：

data = {
    'User': ['Alice', 'Bob', 'Alice', 'Cathy'],
    'Text': ['Good morning!', 'Nice weather.', 'Have a great day!', 'Excellent work!'],
    'Category': ['Greeting', 'Weather', 'Greeting', 'Work']
}
df = pd.DataFrame(data)
# 对 User 和 Category 进行分组
grouped_by_user_category = df.groupby(['User', 'Category'])
# 筛选出用户为 Alice 且类别为 Greeting 的文本
filtered_greetings = grouped_by_user_category.filter(lambda x: 
    x['User'] == 'Alice' and 
    x['Category'] == 'Greeting')
print(filtered_greetings)

在这个示例中，我们首先对数据按照用户和类别进行分组，然后使用 filter() 方法筛选出满足特定条件的行。这在处理大量分类数据时非常有用，可以帮助我们快速找到符合特定条件的数据集。

转载地址：http://yivfk.baihongyu.com/

你可能感兴趣的文章