文章详情页

python - 网页title中包含换行，如何用正则表达式提取出来？

浏览：99日期：2022-06-28 10:07:00

问题描述

在用python做CSDN的网页爬虫，在爬取网页title时，我一直用的正则表达式(?<=<title>).+?(?=<)在CSDN中用不了了，去CSDN源码一看，title换行显示了 python - 网页title中包含换行，如何用正则表达式提取出来？

所以导致原来的正则表达式无法使用，那么，问题来了，像这样网页title中包含换行，如何用正则表达式提取出来呢？

PS：

不想用xpath或beautifulsoup的方法，只需要正则哦

CSDN本身有反爬虫机制，我并不是因为这个反爬虫而爬不到title的哦

谢谢大家

参照@caimaoy 的方法，我将正则表达式改为 (?<=<title>)(?:.|n)+?(?=<)后，title完美提取。再次感谢大家。

问题解答

回答1：

re.M 多行模式

自己写多行匹配 http://python3-cookbook.readt...

回答2：

表达式那边加个flag吧

tite = ’......’print(re.findall(’(?<=<title>).+?(?=<)’, title, re.S))

Python 编程

上一条：python - 如何正则字符串中的所有汉字下一条：python - 使用`zipfile`模块在不解压缩的情况下如何使用text模式读取文本文件？

排行榜

					
					docker api 开发的端口怎么获取？
docker不显示端口映射呢？
java - Hibernate查询的数据是存放在session中吗？
docker-compose中volumes的问题
docker-compose 为何找不到配置文件？
docker  下面创建的IMAGE 他们的 ID 一样？这个是怎么回事？？？？
android - 添加multidex后在部分机型上产生anr的问题，该如何解决
vim - docker中新的ubuntu12.04镜像,运行vi提示,找不到命名.
angular.js - node.js中下载的angulae无法引入
python 多进程 或者 多线程下如何高效的同步数据?
php - 想要远程推送emjio ios端怎么搞 需要怎么配合
				

热门标签