文章详情页

python - 关于代码的优化问题

浏览：149日期：2022-08-17 09:32:17

问题描述

我新手写的代码，用来处理爬虫下来的htm文件内容,虽然解决问题，但是会有遗漏文件不处理。爬虫是爬一些文章的网站下来的，和网页另存为没什么区别。

想大神们帮我看看我的代码，怎么优化不会有遗漏。比较小白的代码，麻烦了！！！

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’’’, ’’, threetxt) fivetxt=re.sub(’”’, ’'’, fourtxt) sixtxt=re.sub(’“’, ’'’, fivetxt)endstr=re.sub(’–’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

问题解答

回答1：

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

Python 编程

上一条：python - mysql 如何设置通用型字段? 比如像mongodb那样下一条：python 如何实现PHP替换图片链接

相关文章：

1. mysql - JAVA怎么实现一个DAO同时实现查询两个实体类的结果集2. sql语句 - 如何在mysql中批量添加用户？3. mysql建表报错，查手册看不懂，求解？4. PHP类属性声明？5. 求大神支招，php怎么操作在一个html文件的<head>标记内添加内容？6. 怎么php怎么通过数组显示sql查询结果呢，查询结果有多条，如图。7. 致命错误: Class ’appfacadeTest’ not found8. 老师们php,插入数据库mysql，都是空的，要怎么解决9. mysql - 数据库建字段，默认值空和empty string有什么区别 11010. phpstady在win10上运行

排行榜

					
					【python小白】  问关于property的顺序问题
javascript - 切换掉当前页面后该页面的js动画会暂停？
sql语句 - 如何在mysql中批量添加用户？
java - 使用struct2的标签读取不到Action里面的字段
docker内创建jenkins访问另一个容器下的服务器问题
android - 哪位大神知道java后台的api接口的对象传到前端后输入日期报错，是什么情况？求大神指点
PHP类属性声明？
phpstady在win10上运行
vue.js - vue获取mongodb中的数据起初显示未定义，但还是可以渲染
angular.js - angular指令中的scope属性中用&获取父作用域函数的问题
javascript - 求解答，koa-bodyparser获取到的参数是空对象，为什么？？？？？
				

热门标签