文章详情页

python UDF 实现对csv批量md5加密操作

更多 QQ空间微信 QQ好友腾讯朋友复制链接

【字号：大中小】日期：2022-06-30 16:22:57浏览：2作者：猪猪

工作上遇到需求，一批手机号要md5加密导出。为了保证数据安全，所以没有采用网上工具来加密。

md5的加密算法是开源的且成熟的，很多语言都有对应包可以直接用，我写了一个简单的python来实现，另一位同事做了一个hiveUDF来实现，这里都给大家分享一下。

目标：

读取csv文件，并且对其中的内容进行md5加密，32位加密，将加密后的密文存入另一个csv文件。

python实现：

（1）准备好要读取的csv文件。单列，一行存一个手机号码。

python UDF 实现对csv批量md5加密操作

（2）python代码：

#encoding=utf8import hashlib #加密模块import os#定义一个加密函数，32位md5加密def md5_encryption(str): m=hashlib.md5() m.update(str) return m.hexdigest()#准备要读取的csv和要被写入的csv，两个文件要和此python放在同一个文件夹里readfilename=os.path.join(os.path.dirname(__file__),'testcsv.csv')writefilename=os.path.join(os.path.dirname(__file__),'writecsv.csv')print(’read:’,readfilename)print(’write:’,writefilename)with open(readfilename,’r’) as rf: #逐行写入加密后的密文，strip函数用于剔除换行符n，不然是对“13000000n”加密而不是对“13000000”加密 with open(writefilename,’w’) as wf: for row in rf.readlines(): wf.write(md5_encryption(row.strip())) wf.write(’n’) #计算一下写入的行数 with open(writefilename,’r’) as rwf: count=0 while 1: buffer=rwf.read(1024*8192) if not buffer: break count+=buffer.count(’n’) print(’line writed number:’,count)

（3）结果

python UDF 实现对csv批量md5加密操作

hive UDF 实现：

（1）用java写一个类用来实现加密，用maven打成jar包

import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.commons.lang.StringUtils;import java.security.MessageDigest;public class MD5 extends UDF { public String evaluate (final String str) { if (StringUtils.isBlank(str)){ return ''; } String digest = null; StringBuffer buffer = new StringBuffer(); try { MessageDigest digester = MessageDigest.getInstance('md5'); byte[] digestArray = digester.digest(str.getBytes('UTF-8')); for (int i = 0; i < digestArray.length; i++) { buffer.append(String.format('%02x', digestArray[i])); } digest = buffer.toString(); } catch (Exception e) { e.printStackTrace(); } return digest; } public static void main (String[] args ) { MD5 md5 = new MD5(); System.out.println(md5.evaluate(' ')); }}

（2）配置一下pom.xml

<?xml version='1.0' encoding='UTF-8'?><project xmlns='http://maven.apache.org/POM/4.0.0' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xsi:schemaLocation='http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd'> <modelVersion>4.0.0</modelVersion> <groupId>HiveUdf</groupId> <artifactId>HiveUdf</artifactId> <version>1.0-SNAPSHOT</version> <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>0.14.0</version> </dependency> <dependency> <groupId>org.apache.calcite</groupId> <artifactId>calcite-core</artifactId> <version>0.9.2-incubating</version> </dependency> <dependency> <groupId>org.apache.calcite</groupId> <artifactId>calcite-avatica</artifactId> <version>0.9.2-incubating</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.0</version> </dependency> </dependencies></project>

(3)hive中配置udf

导入jar包：

hive> add jar hdfs:/user/udf/HiveUdf-1.0-SNAPSHOT.jar;

新建一个函数：

hive> create temporary function MD5 as ’MD5’;

使用:

hive> select MD5(’12345’);OK827ccb0eea8a706c4c34a16891f84e7bTime taken: 0.139 seconds, Fetched: 1 row(s)hive> hive> select phone,MD5(phone) from mid_latong_20200414 limit 5;OK1300****436 856299f44928e90****181b0cc1758c41300****436 856299f44928e90****181b0cc1758c41300****689 771dfa9ef00f43c****4901a3f1d1fa01300****689 771dfa9ef00f43c****4901a3f1d1fa01300****689 771dfa9ef00f43c****4901a3f1d1fa0Time taken: 0.099 seconds, Fetched: 5 row(s)

以上就是python和hiveUDF两种实现md5加密的方法啦！

补充：python的MD5加密的一点坑

曾经在做某ctf题目时，被这点坑，坑了好久。

废话不多说，进入正题。

python MD5加密方法

import hashlib //导入hash库函数text = 'bolg.csdn.net' //要加密的文本md5_object = hashlib.md5() //创建一个MD5对象md5_object.update(text) //添加去要加密的文本print md5_object.hexdigest() //输出加密后的MD5值坑在哪？

当你在进行第一次加密时，程序正常输出MD5值，但是在同一程序中进行第二次明文加密时，如果你的代码是这样写，就不会得到正确的MD5值。

python UDF 实现对csv批量md5加密操作

通过对第一张图片和第二张图片的比较，发现如果按照第一张图片的代码进行连续加密时，它实质上是在加密每次明文的叠加。

即第一次加密：csdn

第二次加密:csdnblog

正确做法应该是：

python UDF 实现对csv批量md5加密操作

以上为个人经验，希望能给大家一个参考，也希望大家多多支持好吧啦网。如有错误或未考虑完全的地方，望不吝赐教。

Python 编程

上一条：python安装mysql的依赖包mysql-python操作下一条：安装python依赖包psycopg2来调用postgresql的操作

相关文章：

1. ASP 信息提示函数并作返回或者转向2. CSS 使用Sprites技术实现圆角效果3. html小技巧之td,div标签里内容不换行4. css代码优化的12个技巧5. CSS3中Transition属性详解以及示例分享6. CSS Hack大全-教你如何区分出IE6-IE10、FireFox、Chrome、Opera7. CSS3实例分享之多重背景的实现(Multiple backgrounds)8. 阿里前端开发中的规范要求9. XML入门的常见问题(一)10. uni-app低成本封装一个取色器组件的简单方法

排行榜

					
					css代码优化的12个技巧
AJAX实现数据的增删改查操作详解【java后台】
阿里前端开发中的规范要求
ASP 信息提示函数并作返回或者转向
利用ajax+php实现商品价格计算
XML入门的常见问题(一)
html小技巧之td,div标签里内容不换行
CSS 使用Sprites技术实现圆角效果
ASP中解决“对象关闭时,不允许操作。”的诡异问题……
CSS Hack大全-教你如何区分出IE6-IE10、FireFox、Chrome、Opera
uni-app低成本封装一个取色器组件的简单方法
				

热门标签