文章详情页

python使用re模块爬取豆瓣Top250电影

浏览：2日期：2022-07-07 16:52:40

爬?四步原理：

1.发送请求：requests

2.获取相应数据：对方及其直接返回

3.解析并提取想要的数据：re

4.保存提取后的数据：with open()文件处理

爬?三步曲：

1.发送请求

2.解析数据

3.保存数据

注意：豆瓣网页爬虫必须使用请求头，否则服务器不予返回数据

import reimport requests# 爬?三部曲：# 1.获取请求def get_data(url, headers): response = requests.get(url, headers=headers) # 如果爬取的是html文本就是用.text方法获取文本数据，如果爬取的是音视频就用.content方法获取二进制流数据 # print(response.text) # 获取相应文本，比如html代码 return response.text# 2.解析数据def parser_data(text): # re.findall('正则表达式', '过滤的文本', re.S) # 匹配模式：re.S 全局模式 data = re.findall( ’<div class='item'>.*?<a href='https://www.haobala.com/bcjs/(.*?)' rel='external nofollow' >.*?(.*?).*?(.*?).*?(.*?)人评价’, text, re.S) for move_info in data: yield move_info# 3.保存数据def save_data(res_list_iter): with open('豆瓣TOP250.txt', 'a', encoding='utf-8') as f: for i in res_list_iter: move_page, move_title, move_score, move_evaluation = i # print(move_page, move_title, move_score, move_evaluation) str1 = f'电影名字：《{move_title}》电影评分：{move_score} 电影评价：{move_evaluation} 电影详情页：{move_page}n' f.write(str1)# 使用请求头请求数据headers = { ’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36’}n = 0# 获取10个链接for i in range(10): url = f'https://movie.douban.com/top250?start={n}&filter==' n += 25 text = get_data(url, headers) res_list_iter = parser_data(text) save_data(res_list_iter)

执行结果：

python使用re模块爬取豆瓣Top250电影

以上就是python使用re模块爬取豆瓣Top250电影的详细内容，更多关于python 爬取豆瓣电影的资料请关注好吧啦网其它相关文章！

豆瓣 Python

上一条：如何基于python实现年会抽奖工具下一条：Python GUI之tkinter窗口视窗教程大集合(推荐)

相关文章：

1. 父div高度不能自适应子div高度的解决方案2. 从零学CSS系列之文本属性3. CSS3+Js实现响应式导航条4. .NET使用StackTrace获取方法调用信息的代码演示5. PHP 验证登陆类6. Java Tcp协议socket编程学习7. Java中equals()知识点总结8. AJAX实现指定部分页面刷新效果9. Python爬虫实现百度翻译功能过程详解10. ASP.NET MVC使用正则表达式验证手机号码

排行榜

					
					Android加密之全盘加密详解
Java Tcp协议socket编程学习
JS绘图Flot如何实现动态可刷新曲线图
Python爬虫实现百度翻译功能过程详解
vue-model实现简易计算器
从零学CSS系列之文本属性
ASP.NET MVC使用正则表达式验证手机号码
AJAX实现指定部分页面刷新效果
.NET使用StackTrace获取方法调用信息的代码演示
父div高度不能自适应子div高度的解决方案
Dockerfile 中 VOLUME 与 docker -v 的区别说明
				

热门标签