文章详情页

python - scrapy 处理文章分页的内容

浏览：75日期：2022-08-03 16:15:10

问题描述

如一篇文章有2-3页，然后想把这些内容页爬下来，拼接成一页，然后再放入数据库。文章url如：article_1.html,article_2.htmlitem有：item[’title’],item[’content’]而item[’content’]就是拼接成一页的内容。大概怎么写呢？

问题解答

回答1：

找到分页接口url

回答2：

找到那个下一页的链接，加入到爬取url列表中

回答3：

可以在rules里面写正则自动扫描符合的url

Python 编程

上一条：python - 如何让dataframe A 的一列与dataframe B的一列相减相加结果记到A的c列？下一条：乱码 - VS2013+PTVS，python编码问题

相关文章：

1. angular.js - 不适用其他构建工具，怎么搭建angular1项目2. python如何不改动文件的情况下修改文件的修改日期3. mysql - 一个表和多个表是多对多的关系，该怎么设计4. javascript - git clone 下来的项目想在本地运行 npm run install 报错5. mysql主从 - 请教下mysql 主动-被动模式的双主配置和主从配置在应用上有什么区别？6. android-studio - Android 动态壁纸LayoutParams问题7. 主从备份 - 跪求mysql 高可用主从方案8. angular.js - 三大框架react、vue、angular的分析9. python 如何实现PHP替换图片链接10. python - django 里自定义的 login 方法，如何使用 login_required()

排行榜

					
					python 如何实现PHP替换图片 链接
主从备份 - 跪求mysql 高可用主从方案
angular.js - 三大框架react、vue、angular的分析
javascript - git clone 下来的项目 想在本地运行 npm run install 报错
angular.js - 不适用其他构建工具，怎么搭建angular1项目
python - django 里自定义的  login 方法，如何使用 login_required()
android-studio - Android 动态壁纸LayoutParams问题
python如何不改动文件的情况下修改文件的 修改日期
mysql主从 - 请教下mysql 主动-被动模式的双主配置 和 主从配置在应用上有什么区别？
mysql - 一个表和多个表是多对多的关系，该怎么设计
sql语句如何按or排序取出记录
				

热门标签

python - scrapy 处理 文章 分页的内容

python - scrapy 处理文章分页的内容