文章详情页

python - 关于NumPy数组操作的问题

浏览：197日期：2022-06-26 18:57:18

问题描述

[’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]

numpy数组，总共有几个万个元素。现在想保留每个元素前面的编号000001之类的，并且去掉重复，只保留唯一的一个编号。结果应该是[’000001’,’000002’,’000003’,’000004’]除了用for语句实现外，有没有更高效的办法？

问题解答

回答1：

写个NumPy的吧~

python3

>>> import numpy as np>>> a = np.array([’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’])>>> b = np.unique(np.fromiter(map(lambda x:x.split(’_’)[0],a),’|S6’))>>> barray([b’000001’, b’000002’, b’000003’, b’000004’], dtype=’|S6’)

还可以这样写：np.frompyfunc’|S6’是以6个字节存储字符串

’<U6’是以6个小端序Unicode字符存储字符串

>>> b = np.array(np.unique(np.frompyfunc(lambda x:x[:6],1,1)(a)),dtype=’<U6’)>>> barray([’000001’, ’000002’, ’000003’, ’000004’], dtype=’<U6’)回答2：

综合两位仁兄的写法@同意并接受 @xiaojieluoff

如果编号长度固定是前六位，最快的写法下面第一种最快

import timelst = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000start = time.time()data = {_[:6] for _ in lst}print ’dic: {}’.format(time.time() - start)start = time.time()data = set(_[:6] for _ in lst)print ’set: {}’.format(time.time() - start)start = time.time()data = set(map(lambda _: _[:6], lst))print(’map：{}’.format(time.time() - start))start = time.time()data = set()[data.add(_[:6]) for _ in lst]print(’for：{}’.format(time.time() - start))耗时：dic: 0.72798705101set: 0.929664850235map：1.89214396477for：1.76194214821回答3：

使用 map 和匿名函数

lists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’,’000002_2017-03-21.csv’,’000002_2017-03-22.csv’,’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]data = list(set(map(lambda x:x.split(’_’)[0], lists)))print(data)

输出：

[’000003’, ’000004’, ’000001’, ’000002’]

运行下面代码可以看到，在 6百万条数据下，map 比 for 快了 0.6s 左右

import timelists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000map_start = time.clock()map_data = list(set(map(lambda x:x.split(’_’)[0], lists)))map_end = (time.clock() - map_start)print(’map 运行时间：{}’.format(map_end))for_start = time.clock()data = set()for k in lists: data.add(k.split(’_’)[0])for_end = (time.clock() - for_start)print(’for 运行时间：{}’.format(for_end))

输出：

map 运行时间：2.36173for 运行时间：2.9405870000000003

如果把测试数据扩大到 6千万，差距就更明显了

map 运行时间：29.620203for 运行时间：33.132621

Python 编程

上一条：python - pandas中mode()怎么使用?下一条：求大神解读一段神级的Python代码，谢谢！！

相关文章：

1. 在windows下安装docker Toolbox 启动Docker Quickstart Terminal 失败！2. 关于docker下的nginx压力测试3. docker-machine添加一个已有的docker主机问题4. docker安装后出现Cannot connect to the Docker daemon.5. Docker for Mac 创建的dnsmasq容器连不上/不工作的问题6. nignx - docker内nginx 80端口被占用7. angular.js - angularjs的自定义过滤器如何给文字加颜色？8. docker - 如何修改运行中容器的配置9. docker镜像push报错10. docker容器呢SSH为什么连不通呢？

排行榜

					
					在windows下安装docker  Toolbox 启动Docker Quickstart Terminal 失败！
docker安装后出现Cannot connect to the Docker daemon.
关于docker下的nginx压力测试
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
docker - 如何修改运行中容器的配置
docker-machine添加一个已有的docker主机问题
nignx - docker内nginx 80端口被占用
angular.js - angularjs的自定义过滤器如何给文字加颜色？
为什么我ping不通我的docker容器呢？？？
docker镜像push报错
angular.js - angular内容过长展开收起效果
				

热门标签