文章详情页

python - beautifulsoup获取网页内容的问题

浏览：297日期：2022-06-30 08:43:35

问题描述

我要的是这个里面的内容<p class='talk-article__body talk-transcript__body'>

PYTHON代码：

neirong=soup.find(’p’,{’class’:’talk-article__body talk-transcript__body’})

但是返回的结果是空。这个选择器是不是写错了？

问题解答

回答1：

neirong=soup.find_all(’p’,class_=’talk-article__body talk-transcript__body’)

https://www.crummy.com/softwa...

回答2：

参照：https://www.crummy.com/softwa...中给出的说明，正确的使用方式是：neirong=soup.find(’p’,class_=’talk-article__body talk-transcript__body’)

为了获取p包含的内容，进一步调用neirong.contents即可

回答3：

neirong = soup.select(’.talk-article__body.talk-transcript__body’)回答4：

你从浏览器看到的内容有js动态生成的,用bs匹配不到,我发现看到的比较奇怪的class名基本都是js生成的

回答5：

使用find_all吧,find不能用于class

回答6：

个人觉得用BeautifulSoup来解析网页的时候，如果楼主打算通过css特性来进行元素的定位的话，最好还是使用soup.select()，这个方法可以用class的value当参数也可以用标签的的attribute当参数，很方便，用于搜索单一标签最好用，同时参数支持css选择器字符串，比如：soup.select('#id > .class a.title').

soup.find()方法目前好像用的不多，不知道是不是BeautifulSoup4弃用了。现在一般只要出现find，就是find_all()等方法。以上详细参考“超级汤”的中文文档：http://beautifulsoup.readthed...

Python 编程

上一条：python - 编码问题求助下一条：python - 版本号对比方法优化

相关文章：

1. objective-c - 微信支付的问题2. java - Spring boot 读取放在 jar 包外的，log4j 配置文件，系统有创建日志文件，不写入日志信息。3. java - web端百度网盘的一个操作为什么要分两次请求服务器, 有什么好处吗4. node.js - express框架，设置浏览器从缓存中读取静态文件，只有js从缓存中读取了，css还有一些图片为何没有从缓存中读取？5. java - 如何点击按钮，重新运行（我是初学者）？6. javascript - 请指条明路，angular的$event，在select中却是undefined？7. 继承Controller类之后报错8. android - 用textview显示html时如何写imagegetter获取网络图片9. javascript - QQ第三方登录的问题10. Angular.js 无法设置Authorization头，该怎么解决？

排行榜

					
					java - web端百度网盘的一个操作为什么要分两次请求服务器, 有什么好处吗
Angular.js 无法设置Authorization头，该怎么解决？
objective-c - 微信支付的问题
javascript - 请指条明路，angular的$event，在select中却是undefined？
java - Spring boot 读取 放在 jar 包外的，log4j 配置文件，系统有创建日志文件，不写入日志信息。
angular.js - angular内容过长展开收起效果
node.js - express框架，设置浏览器从缓存中读取静态文件，只有js从缓存中读取了，css还有一些图片为何没有从缓存中读取？
javascript - QQ第三方登录的问题
docker内创建jenkins访问另一个容器下的服务器问题
java - 如何点击按钮，重新运行（我是初学者）？
继承Controller类之后报错
				

热门标签