pandas与numpy数据处理实例

1. 读取数据

使用pandas库的read_csv()函数读取数据文件。以下是代码示例：

import pandas as pd
import numpy as np
# 读取数据
data = pd.read_csv('data.csv')

data.csv文件应包含以下列：column1、column2和column3。确保文件路径正确，并且数据格式符合预期。

2. 按多个列分组

使用groupby()方法按column1和column2分组。分组后的对象存储在grouped变量中：

# 按 'column1' 和 'column2' 进行分组
grouped = data.groupby(['column1', 'column2'])

3. 将分组数据转换为numpy数组

使用apply()函数将每个分组的column3转换为numpy数组。以下是代码：

# 将每个分组的数据转换为 numpy 数组
result = grouped.apply(lambda x: np.array(x['column3']))

4. 测试用例

以下是一个创建示例DataFrame的代码示例：

# 创建一个示例 DataFrame
data = pd.DataFrame({
    'A': [1, 1, 1, 2, 2],
    'B': [2, 2, 3, 3, 3],
    'C': [5, 6, 7, 8, 9]
})
# 按 'A' 和 'B' 进行分组，并将 'C' 列转换为 numpy 数组
grouped = data.groupby(['A', 'B'])
result = grouped.apply(lambda x: np.array(x['C']))

运行上述代码会输出以下结果：

A    B    C
1    2  [5, 6]
2    3  [7]
2    3  [8, 9]

result变量将包含每个分组的C列数据转换后的numpy数组。

5. 自然语言处理示例

以下是使用spaCy进行自然语言处理的示例代码：

import spacy
# 加载 spaCy 模型
nlp = spacy.load('en_core_web_sm')
# 创建一个示例文档
doc = nlp("This is a sentence.")
# 提取文档中的关键词
keywords = [token.text for token in doc if token.is_alpha and not token.is_stop]
print(keywords)

运行上述代码会输出以下结果：