文章详情页

如何用python清洗文件中的数据

浏览：3日期：2022-06-16 13:40:37

目录简单版使用filter读取utf-8带bom的文件多文件清洗清洗数据同时记录订单号并排序清洗sql文件，将数据表名放入excel中总结简单版

直接打开日志文件，往另外一个文件中按照要过滤的要求进行过滤

import io;with open(’a.txt’, ’w’) as f:for line in open(’c:/201509.txt’): if line.find(’更改项目’)>0 and line.find(’500’)>0: f.write(line+'n');print('输出完成');

注意.find返回的是字符串在目标的第几位，要和0作比较另外使用and而不是&&作为'和'，使用or而不是||作为'或' w是写，r是读，a是追加

使用filter

import io;def isData(s): return s.find(’更改项目’)>0 and s.find(’500’)>0;with open(’a.txt’, ’w’) as f: list1=list(filter(isData,open(’c:/201509.txt’))); for (offset,item) in enumerate(list1): f.write(str(offset)+':'+item);读取utf-8带bom的文件

微软会在在 UTF-8 文件中放置 BOM头（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯。不含BOM的UTF-8才是标准形式，UTF-8不需要BOM，带BOM的UTF-8文件的开头会有U+FEFF，所以Windows新建的空文件会有3字节的大小。

import codecswith codecs.open(’c:/20160907205.log’, encoding=’utf_8_sig’) as f: for line in f:print(line)

注意编码格式是utf_8_sig

多文件清洗

对多个文件进行过滤，可以借助其名称的规律，遍历文件之后

import codecswith codecs.open(’a.txt’,’a’, encoding=’utf_8_sig’) as f: for i in range(205,210):f.write(str(i)+'rn'); print(str(i)); for line in open(’c:/20160907’+str(i)+’.log’, encoding=’utf_8_sig’): if line.find(’url为’)>=0 : print(line);f.write(line+'rn');print('输出完成');清洗数据同时记录订单号并排序

import codecsa=0;List=[];with codecs.open(’a.txt’,’a’, encoding=’utf_8_sig’) as f:for i in range(205,210): for line in open(’c:/20160907’+str(i)+’.log’, encoding=’utf_8_sig’): if line.find(’url为’)>=0 : ind=line.find('XFLucky');if ind>=0: nums=line[ind:ind+22];print(nums); List.append(nums); a=a+1;print(line);f.write(str(i)+line+'rn'); List.sort(); for item in List: print(item); print('输出完成'+str(a));清洗sql文件，将数据表名放入excel中

安装openpyxl

pip install openpyxl

安装之后就可以进行sql建表语句的过滤了，将所有的表名和注释写入我们的excel文件中。

import reimport openpyxldata = []temp = []wb = openpyxl.load_workbook(’data.xlsx’)ws2 = wb.create_sheet(index=2, title=’addSheet_test’)for line in open(’wlzcool.sql’, encoding=’utf-8’): if line.find(’CREATE TABLE’) >= 0:matchObj1 = re.search(’`(.*?)`’, line, re.M | re.I)if matchObj1: # print('matchObj.group(1) : ', matchObj1.group(1)) print(matchObj1.group(1)) temp.append(matchObj1.group(1)) if line.find(’ROW_FORMAT = Dynamic’) >= 0:matchObj2 = re.search(’’(.*?)’’, line, re.M | re.I)if matchObj2: # print('matchObj.group(1) : ', matchObj2.group(1)) print(matchObj2.group(1)) temp.append(matchObj2.group(1))else: print('no comment') temp.append('no comment')data.append(temp)temp = []for row in data: ws2.append(row)wb.save(’data.xlsx’)print('输出完成')总结

人生苦短，我用 Python，在强大的第三方库帮助下，我们只需很少的代码就可以实现很大数据量的文件的清洗。

以上就是如何用python清洗文件中的数据的详细内容，更多关于python清洗文件中的数据的资料请关注好吧啦网其它相关文章！

Python 编程

上一条：python中%格式表达式实例用法下一条：Python中glob库实现文件名的匹配

相关文章：

1. vue使用moment如何将时间戳转为标准日期时间格式2. Python数据相关系数矩阵和热力图轻松实现教程3. js select支持手动输入功能实现代码4. 《Java程序员修炼之道》作者Ben Evans：保守的设计思想是Java的最大优势5. java加载属性配置properties文件的方法6. CSS3中Transition属性详解以及示例分享7. bootstrap select2 动态从后台Ajax动态获取数据的代码8. php redis setnx分布式锁简单原理解析9. ASP常用日期格式化函数 FormatDate()10. 什么是Python变量作用域

排行榜

					
					Python数据相关系数矩阵和热力图轻松实现教程
如何在PHP中读写文件
vue-drag-chart 拖动/缩放图表组件的实例代码
PHP正则表达式函数preg_replace用法实例分析
php redis setnx分布式锁简单原理解析
一个 2 年 Android 开发者的 18 条忠告
Spring @Primary和@Qualifier注解原理解析
Vue实现仿iPhone悬浮球的示例代码
Spring Boot应用开发初探与实例讲解
JS数据类型分类及常用判断方法
关于docker部署的jenkins跑git上的程序的问题
				

热门标签