文章详情页

详解Python爬虫爬取博客园问题列表所有的问题

浏览：9日期：2022-06-29 15:45:01

一.准备工作首先，本文使用的技术为 python+requests+bs4，没有了解过可以先去了解一下。我们的需求是将博客园问题列表中的所有问题的题目爬取下来。

二.分析：首先博客园问题列表页面右键点击检查通过Element查找问题所对应的属性或标签

详解Python爬虫爬取博客园问题列表所有的问题

可以发现在div class ='one_entity'中存在页面中分别对应每一个问题接着div class ='news_item'中h2标签下是我们想要拿到的数据

三.代码实现

首先导入requests和BeautifulSoup

import requestsfrom bs4 import BeautifulSoup

由于很多网站定义了反爬策略，所以进行伪装一下

headers = { ’User-Agent’: ’Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36’ }

在这里User-Agent只是其中的一种方式，而且大家的User-Agent可能不同。

爬取数据main代码

url = ’https://q.cnblogs.com/list/unsolved?’ fp = open(’blog’, ’w’, encoding=’utf-8’) for page in range(1,26): page = str(page) param = { ’page’:page } page_text = requests.get(url=url,params=param,headers=headers).text page_soup = BeautifulSoup(page_text,’lxml’) text_list = page_soup.select(’.one_entity > .news_item > h2’) for h2 in text_list: text = h2.a.string fp.write(text+’n’) print(’第’+page+’页爬取成功！’)

注意一下这里，由于我们需要的是多张页面的数据，所以在发送请求的url中我们就要针对不同的页面发送请求，https://q.cnblogs.com/list/unsolved?page=我们要做的是在发送请求的url时候，根据参数来填充页数page，代码实现：

url = ’https://q.cnblogs.com/list/unsolved?’ for page in range(1,26): page = str(page) param = { ’page’:page } page_text = requests.get(url=url,params=param,headers=headers).text

将所有的h2数组拿到，进行遍历，通过取出h2中a标签中的文本，并将每取出来的文本写入到文件中，由于要遍历多次，所以保存文件在上面的代码中。

text_list = page_soup.select(’.one_entity > .news_item > h2’) for h2 in text_list: text = h2.a.string fp.write(text+’n’)

完整代码如下:

import requestsfrom bs4 import BeautifulSoupif __name__ == ’__main__’: headers = { ’User-Agent’: ’Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36’ } url = ’https://q.cnblogs.com/list/unsolved?’ fp = open(’blog’, ’w’, encoding=’utf-8’) for page in range(1,26): page = str(page) param = { ’page’:page } page_text = requests.get(url=url,params=param,headers=headers).text page_soup = BeautifulSoup(page_text,’lxml’) text_list = page_soup.select(’.one_entity > .news_item > h2’) for h2 in text_list: text = h2.a.string fp.write(text+’n’) print(’第’+page+’页爬取成功！’)四.运行结果

运行代码：

详解Python爬虫爬取博客园问题列表所有的问题

到此这篇关于详解Python爬虫爬取博客园问题列表所有的问题的文章就介绍到这了,更多相关Python爬虫爬取列表内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Python 编程

上一条：用Python自动清理系统垃圾的实现下一条：python中用Scrapy实现定时爬虫的实例讲解

相关文章：

1. python 如何在 Matplotlib 中绘制垂直线2. bootstrap select2 动态从后台Ajax动态获取数据的代码3. ASP常用日期格式化函数 FormatDate()4. python中@contextmanager实例用法5. html中的form不提交（排除）某些input 原创6. CSS3中Transition属性详解以及示例分享7. js select支持手动输入功能实现代码8. 如何通过python实现IOU计算代码实例9. 开发效率翻倍的Web API使用技巧10. vue使用moment如何将时间戳转为标准日期时间格式

排行榜

					
					Python数据相关系数矩阵和热力图轻松实现教程
如何在PHP中读写文件
vue-drag-chart 拖动/缩放图表组件的实例代码
PHP正则表达式函数preg_replace用法实例分析
如何使用repr调试python程序
php redis setnx分布式锁简单原理解析
Java xml数据格式返回实现操作
Spring @Primary和@Qualifier注解原理解析
Django使用channels + websocket打造在线聊天室
Spring Boot 功能整合的实现
一个 2 年 Android 开发者的 18 条忠告
				

热门标签