文章详情页

Python 数据分析之逐块读取文本的实现

浏览：2日期：2022-07-02 11:00:12

背景

《利用Python进行数据分析》，第 6 章的数据加载操作 read_xxx，有 chunksize 参数可以进行逐块加载。

经测试，它的本质就是将文本分成若干块，每次处理 chunksize 行的数据，最终返回一个TextParser 对象，对该对象进行迭代遍历，可以完成逐块统计的合并处理。

示例代码

文中的示例代码分析如下：

from pandas import DataFrame,Seriesimport pandas as pd path=’D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv’# chunksize return TextParserchunker=pd.read_csv(path,chunksize=1000) # an array of Seriestot=Series([])chunkercount=0for piece in chunker:print ’------------piece[key] value_counts start-----------’#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key columnprint piece[’key’].value_counts()print ’------------piece[key] value_counts end-------------’#piece[key] value_counts is a Series ,key is the key column, and value is the key counttot=tot.add(piece[’key’].value_counts(),fill_value=0)chunkercount+=1 #last order the seriestot=tot.order(ascending=False)print chunkercountprint ’--------------’流程分析

首先，例子数据 ex6.csv 文件总共有 10000 行数据，使用 chunksize=1000 后，read_csv操作返回一个 TextParser 对象，该对象总共有10个元素，遍历过程中打印 chunkercount验证得到。

其次，每个 piece 对象是一个 DataFrame 对象，piece[’key’] 得到的是一个 Series 对象，默认是数值索引，值为 csv 文件中的 key 列的值，即各个字符串。

将每个 Series 的 value_counts 作为一个Series，与上一次统计的 tot 结果进行 add 操作，最终得到所有块数据中各个 key 的累加值。

最后，对 tot 进行 order 排序，按降序得到各个 key 的值在 csv 文件中出现的总次数。

这里很巧妙了使用 Series 对象的 add 操作，对两个 Series 执行 add 操作，即合并相同key：key相同的记录的值累加，key不存在的记录设置填充值为0。

输出结果为：

Python 数据分析之逐块读取文本的实现

到此这篇关于Python 数据分析之逐块读取文本的实现的文章就介绍到这了,更多相关Python 逐块读取文本内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Python 编程

上一条：python 利用百度API识别图片文字（多线程版）下一条：Python 2.6.6升级到Python2.7.15的详细步骤

相关文章：

1. 用ultraEdit打造自己的java IDE2. IDEA 2020 设置项目集成git 及svn和git之间的切换问题3. 你好，JOGL - Java与OpenGl的绑定4. HTML5 Canvas绘制图形从入门到精通5. Docker 容器健康检查机制6. Vue项目中数据的深度监听或对象属性的监听实例7. Spring Security OAuth2 授权码模式的实现8. PHP Extended CHM 中文手册9. python中numpy.empty()函数实例讲解10. django注册用邮箱发送验证码的实现

排行榜

					
					HTML5 Canvas绘制图形从入门到精通
Vue项目中数据的深度监听或对象属性的监听实例
Docker 容器健康检查机制
PHP Extended CHM 中文手册
django注册用邮箱发送验证码的实现
你好，JOGL - Java与OpenGl的绑定
用ultraEdit打造自己的java IDE
python中numpy.empty()函数实例讲解
Spring Security OAuth2 授权码模式的实现
IDEA 2020 设置项目集成git 及svn和git之间的切换问题
Java基于fork/koin类实现并发排序
				

热门标签