Python处理文本数据的方法详解

2023-05-11 原文

前言

HI，好久不见，今天是关闭朋友圈的第60天，我是野蛮成长的AC-Asteroid。

人生苦短，我用Python,通过短短两周时间自学，从基础知识到项目实践，在这个过程中深刻体会到这款语言的魅力，今天带来一个有趣的项目，用Python处理文本数据，一起来看看今天的问题吧。

用python处理文本数据

实验目的

熟悉python的基本数据结构，以及文件的输入与输出。

实验数据

利用xxxx年xx机器学习会议的评测数据和评测任务，数据包括训练集和测试集，评测任务为通过给定的训练数据，预测测试集中的关系是正例还是负例，在每个样本最后给出1或者0。

数据描述如下，第一列为关系类型，第二列和第三列为人名，第四列是标题，第五列是关系为正例还是负例，1为正例，0为负例；第六列表示训练集。

事件	人物1	人物2	标题	关系（0 or 1)	训练集

测试集描述如下图，格式基本与训练集类似，唯一不同的是第五列没有关系是正例还是负例的标记。

关系	人物1	人物2	事件

实验内容

对训练集数据进行处理，只留下前面五列，输出文本命名为exp1_1.txt。

在第一步得到的数据的基础上对19类关系进行分类，生成的文本存放在exp1_train文件夹下，按照关系类别出现的顺序，第一个关系类别的数据存放在1.txt中，第二个关系类别存放在2.txt中，直到19.txt。

测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类，即相同关系类型的数据放到一个文本文件中，同样生成19个类别的测试文件，格式仍旧和测试文件保持一致。存放在exp1_test文件夹下，每个类别的文件仍旧命名为1_test.txt，2_test.txt…同时对每个样本在原测试集中出现的位置进行记录，和19个测试文件一一对应起来。比如第一类“传闻不和”的每个样本在原文中处于第几行，在索引文件中进行记录，保存在文件index1.txt，index2.txt….

解题思路

1.第一题是考察我们文件操作与列表的知识，主要考察的难点是对new文件的读取，根据要求处理后在生成一个txt文件，让我们看一下具体的代码实现：

import os
# 创建一个列表用来存储新的内容
list = []                                     
with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打开.new文件,xxx根据自己的编码格式填写
    with open("exp1_1.txt", "w", encoding='xxx') as file_output:        # 打开exp1_1.txt,xxx根据自己的编码格式填写文件如果没有就创建一个
 
        for Line in file_input:                                         # 遍历每一行的文件
            arr = Line.split('\t')                                      # 以\t为分隔符读取
            if arr[0] not in list:                                      # if the word is not in the list
                list.append(arr[0])                                     # add the word to the list
            file_output.write(arr[0] "\t" arr[1] "\t" arr[2] "\t" arr[3] "\t" arr[4] "\n")  # write the line to the file
file_input.close()                                                      #关闭.new文件
file_output.close()                                                     #关闭创建的txt文件

2.第二题依旧考察了文件操作，在题目一生成的文件基础上，按照同一类型的事件对事件进行分类，是否能高效的分组需要利用循环条件来解决，我们来看看具体的

代码实现

import os
file_1 = open("exp1_1.txt", encoding='xxx')             # 打开文件,xxx根据自己的编码格式填写
os.mkdir("exp1_train")                                  # 创建目录
os.chdir("exp1_train")                                  # 修改进程的工作目录（使用该目录）
a = file.readline()                                     # 按行读取exp1_1.txt文件
arr = a.split("\t")                                     # 按\t间隔符作为分割
b = 1                                                   #设置分组文件的序列
file_2 = open("{}.txt".format(b), "w", encoding="xxx")  # 打开文件,xxx根据自己的编码格式填写
for line in file_1:                                     # 按行读取文件
    arr_1 = line.split("\t")                            # 按\t间隔符作为分割
    if arr[0] != arr_1[0]:                              # 如果读取文件的第一列内容与存入新文件的第一列类型不同
        file_2.close()                                  # 关掉该文件
        b  = 1                                          # 文件序列加一
        f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 创建新文件，以另一种类型分类,xxx根据自己的编码格式填写
    arr = line.split("\t")                              # 按\t间隔符作为分割
    f_2.write(arr[0] "\t" arr[1] "\t" arr[2] "\t" arr[3] "t" arr[4] "\t""\n") # 将相同类型的文件写入
f_1.close()                                             # 关闭题目一创建的exp1_1.txt文件
f_2.close()                                             # 关闭创建的最后一个类型的文件

3.将训练集的19个类别按照人物的关系进行进一步的分类，我们可以通过字典对数据进行遍历，查找关系，把关系相同的内容放到一个文件夹中，不同则新建一个。

import os

with open("exp1_1.txt", encoding='xxx') as file_in1: # 打开文件,xxx根据自己的编码格式填写
    i = 1                                            # 类型序列
    arr2 = {}                                        # 创建字典
    for line in file_in1:                            # 按行遍历
        arr3 = line[0:2]                             # 读取关系
        if arr3 not in arr2.keys():
            arr2[arr3] = i                           
            i  = 1                                   # 类型 1
    file_in = open("task1.test.new")                 # 打开文件task1.test.new
    os.mkdir("exp1_test")                            # 创建目录
    os.chdir("exp1_test")                            # 修改进程的工作目录（使用该目录）
    for line in file_in:
        arr = line[0:2]
        with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            file_out.write(line)
    i = 1
    file_in.seek(0)
    os.mkdir("exp1_index")
    os.chdir("exp1_index")
    for line in file_in:
        arr = line[0:2]
        with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            line = line[0:-1]
            file_out.write(line   '\t'   "{}".format(i)   "\n")
        i  = 1

用python处理数值型数据

实验目的

熟悉python的基本数据结构，以及文件的输入与输出。

实验数据

xxxx年xx天池大赛，也是中国高校第x届大数据挑战赛的数据。数据包括两个表，分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据，以及和这些艺人相关的6个月内（20150301-20150831）的用户行为历史记录。选手需要预测艺人随后2个月，即60天（20150901-20151030）的播放数据。

实验内容

对歌曲艺人数据mars_tianchi_songs进行处理，统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv，第一列为艺人的ID，第二列为该艺人的歌曲数目。最后一行输出艺人的个数。
将用户行为表和歌曲艺人表以歌曲song_id作为关联，合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致，第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。
按照艺人统计每个艺人每天所有歌曲的播放量，输出文件为exp2_3.csv，各个列名为艺人id,日期Ds,歌曲播放总量。注意：这里只统计歌曲的播放量，不包括下载和收藏的数量。

解题思路：（利用pandas库）

（1）利用.drop_duplicates() 删除重复值

（2）利用.loc[:,‘artist_id’].value_counts() 求出歌手重复次数，即每个歌手的歌曲数目

（3）利用.loc[:,‘songs_id’].value_counts() 求出歌曲没有重复

import pandas as pd
data = pd.read_csv(r"C:\mars_tianchi_songs.csv")       # 读取数据
Newdata = data.drop_duplicates(subset=['artist_id'])   # 删除重复值
artist_sum = Newdata['artist_id'].count()              
#artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重复次数，即每个歌手的歌曲数目
songChongFu_count = data.loc[:,'songs_id'].value_counts()  # 没有重复（歌手）
artistChongFu_count.loc['artist_sum'] = artist_sum         # 没有重复（歌曲）artistChongFu_count.to_csv('exp2_1.csv')                   # 输出文件格式为exp2_1.csv

利用merge()合并两个表

import pandas as pd import os

data = pd.read_csv(r"C:\mars_tianchi_songs.csv")
data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")
num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')

利用groupby()[].sum()进行重复性相加

import pandas as pd
data =pd.read_csv('exp2_2.csv')
DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重复项相加DataCHongfu.to_csv('exp2_3.csv')

到此这篇关于Python处理文本数据的方法详解的文章就介绍到这了,更多相关Python处理数据内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Python处理文本数据的方法详解的更多相关文章

XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
Swift基本使用-函数和闭包(三)

声明函数和其他脚本语言有相似的地方，比较明显的地方是声明函数的关键字swift也出现了Python中的组元，可以通过一个组元返回多个值。传递可变参数，函数以数组的形式获取参数swift中函数可以嵌套，被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。
10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
Swift、Go、Julia与R能否挑战 Python 的王者地位

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
红薯因 Swift 重写开源中国失败，貌似欲改用 Python

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
你没看错：Swift可以直接调用Python函数库

上周Perfect又推出了新一轮服务器端Swift增强函数库：Perfect-Python。对，你没看错，在服务器端Swift其实可以轻松从其他语种的函数库中直接拿来调用，不需要修改任何内容。以如下python脚本为例：Perfect-Python可以用下列方法封装并调用以上函数，您所需要注意的仅仅是其函数名称以及参数。
Swift中的列表解析

在Swift中完成这个的最简单的方法是什么？我在寻找类似的东西：从Swift2.x开始，有一些与你的Python样式列表解析相当的东西。(在这个意义上，它更像是Python的xrange。如果你想保持集合懒惰一路通过，只是这样说：与Python中的列表解析语法不同，Swift中的这些操作遵循与其他操作相同的语法。
swift抛出终端的python错误

每当我尝试启动与python相关的swift时,我都会收到错误.我该如何解决？
在Android上用Java嵌入Python

解决方法看看this,它适用于J2SE,你可以尝试在Android上运行.
在android studio中使用python代码构建android应用程序

我有一些python代码和它的机器人,我正在寻找一种方法来使用android项目中的那些python代码.有没有办法做到这一点！？解决方法有两种主要工具可供使用,它们彼此不同：>QPython>Kivy使用Kivy,大致相同的代码也可以部署到IOS.

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教