文章详情页

python ETL工具 pyetl

浏览：20日期：2022-07-22 13:44:28

pyetl是一个纯python开发的ETL框架，相比sqoop, datax 之类的ETL工具，pyetl可以对每个字段添加udf函数，使得数据转换过程更加灵活，相比专业ETL工具pyetl更轻量，纯python代码操作，更加符合开发人员习惯

安装

pip3 install pyetl

使用示例

数据库表之间数据同步

from pyetl import Task, DatabaseReader, DatabaseWriterreader = DatabaseReader('sqlite:///db1.sqlite3', table_name='source')writer = DatabaseWriter('sqlite:///db2.sqlite3', table_name='target')Task(reader, writer).start()

数据库表到hive表同步

from pyetl import Task, DatabaseReader, HiveWriter2reader = DatabaseReader('sqlite:///db1.sqlite3', table_name='source')writer = HiveWriter2('hive://localhost:10000/default', table_name='target')Task(reader, writer).start()

数据库表同步es

from pyetl import Task, DatabaseReader, ElasticSearchWriterreader = DatabaseReader('sqlite:///db1.sqlite3', table_name='source')writer = ElasticSearchWriter(hosts=['localhost'], index_name='tartget')Task(reader, writer).start()

原始表目标表字段名称不同，需要添加字段映射

添加

# 原始表source包含uuid，full_name字段reader = DatabaseReader('sqlite:///db.sqlite3', table_name='source')# 目标表target包含id，name字段writer = DatabaseWriter('sqlite:///db.sqlite3', table_name='target')# columns配置目标表和原始表的字段映射关系columns = {'id': 'uuid', 'name': 'full_name'}Task(reader, writer, columns=columns).start()

字段的udf映射，对字段进行规则校验、数据标准化、数据清洗等

# functions配置字段的udf映射，如下id转字符串，name去除前后空格functions={'id': str, 'name': lambda x: x.strip()}Task(reader, writer, columns=columns, functions=functions).start()

继承Task类灵活扩展ETL任务

import jsonfrom pyetl import Task, DatabaseReader, DatabaseWriterclass NewTask(Task): reader = DatabaseReader('sqlite:///db.sqlite3', table_name='source') writer = DatabaseWriter('sqlite:///db.sqlite3', table_name='target') def get_columns(self): '''通过函数的方式生成字段映射配置，使用更灵活''' # 以下示例将数据库中的字段映射配置取出后转字典类型返回 sql = 'select columns from task where name=’new_task’' columns = self.writer.db.read_one(sql)['columns'] return json.loads(columns) def get_functions(self): '''通过函数的方式生成字段的udf映射''' # 以下示例将每个字段类型都转换为字符串 return {col: str for col in self.columns} def apply_function(self, record): '''数据流中对一整条数据的udf''' record['flag'] = int(record['id']) % 2 return record def before(self): '''任务开始前要执行的操作, 如初始化任务表，创建目标表等''' sql = 'create table destination_table(id int, name varchar(100))' self.writer.db.execute(sql) def after(self): '''任务完成后要执行的操作，如更新任务状态等''' sql = 'update task set status=’done’ where name=’new_task’' self.writer.db.execute(sql)NewTask().start()

目前已实现Reader和Writer列表

Reader 介绍 DatabaseReader 支持所有关系型数据库的读取 FileReader 结构化文本数据读取，如csv文件 ExcelReader Excel表文件读取

Writer 介绍 DatabaseWriter 支持所有关系型数据库的写入 ElasticSearchWriter 批量写入数据到es索引 HiveWriter 批量插入hive表 HiveWriter2 Load data方式导入hive表（推荐) FileWriter 写入数据到文本文件

项目地址pyetl

总结

到此这篇关于python ETL工具 pyetl的文章就介绍到这了,更多相关python ETL工具 pyetl内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Python 编程

上一条：详解python如何引用包package下一条：python框架flask入门之路由及简单实现方法

相关文章：

1. html清除浮动的6种方法示例2. CSS3实现动态翻牌效果仿百度贴吧3D翻牌一次动画特效3. css代码优化的12个技巧4. CSS3中Transition属性详解以及示例分享5. CSS3实例分享之多重背景的实现(Multiple backgrounds)6. 详解盒子端CSS动画性能提升7. 详解CSS伪元素的妙用单标签之美8. 低版本IE正常运行HTML5+CSS3网站的3种解决方案9. 告别AJAX实现无刷新提交表单10. IE6/IE7/IE8/IE9中tbody的innerHTML不能赋值的完美解决方案

排行榜

					
					Ajax引擎 ajax请求步骤详细代码
Python-如何使用点“” 访问字典成员？
Docker 容器健康检查机制
Django如何实现防止XSS攻击
Python实现拼音转换
Windows Phone 支持 Android 应用程序？来看看第三方开发者怎么说
解决Django no such table: django_session的问题
python中spy++的使用超详细教程
Python基于gevent实现文件字符串查找器
Django与数据库交互的实现
使用本机IIS Express开发Asp.Net Core应用图文教程
				

热门标签