文章详情页
python - scrapy 处理 文章 分页的内容
浏览:28日期:2022-08-03 16:15:10
问题描述
如一篇文章有2-3页,然后想把这些内容页爬下来,拼接成一页,然后再放入数据库。文章url如:article_1.html,article_2.htmlitem有:item[’title’],item[’content’]而item[’content’]就是拼接成一页的内容。大概怎么写呢?
问题解答
回答1:找到分页接口url
回答2:找到那个下一页的链接,加入到爬取url列表中
回答3:可以在rules里面写正则自动扫描符合的url
相关文章:
1. css - 关于input标签disabled问题2. html - 谁能推荐一个类似apple官网的模板,用来展示产品的?3. ueditor上传服务器提示后端配置项没有正常加载,求助!!!!!4. 为什么HTML5规范中会包含一些和html无关的东西?如本地存储等。5. javascript - babel转码目标文件下有除了.js的其他文件,转码后只有.js文件。6. javascript - vue el 重复挂载 同一个实例7. javascript - 关于微信公众号开发的一个trouble!8. javascript - 责任具体在哪一方9. c++ - win764位环境下,我用GCC为什么指针占8个字节,而long是4个字节?10. 微信chooseImage接口部分机型选择图片后莫名其妙的跳转其他页面
排行榜