文章详情页

python - 爬虫获取所有数据的思路是什么

浏览：186日期：2022-09-20 09:30:05

问题描述

比如一个网站有下一页，我要怎么能把所有下一页爬完呢，用递归吗，递归深度不会有限制吗，初学，希望得到指点

问题解答

回答1：

递归，消息队列，储存已经爬取的页面（redis, 数据库)

回答2：

如果你指的所有数据是一个小域名下的所有数据，并且你并不想细究原理，那就去学scrapy。

如果你指的所有数据是全网数据，并且想搞明白爬取时是广度优先还是深度优先等等原理，那首先你得有10000+服务器。

回答3：

如果是同一个网站，用递归爬去呀，同一个网站怎么会爬不完

回答4：

如果网站的结构是简单重复的，可以先分析页码url的规律，然后直接从第一页拿到总页数，然后手动构造出其他页的url。

回答5：

首先大致说下爬取的思路,如果页面链接很简单,类似 www.xxx.com/post/1.html这种有规律可循的页面,可以写递归或者循环去爬取

如果页面链接是未知的,可以获取爬取的页面去解析标签的链接,然后继续爬取,在这一过程中,你需要将已经爬取过的链接存下来,爬新链接的时候去寻找一下是否之前爬取过,然后也是通过递归去爬取

爬取思路通过url爬取->解析爬取内容中新的url->通过url爬取->....->当爬取到一定数量或者很长一段时间没有新链接的时候跳出递归

最后在python界有一个很厉害的爬虫框架scrapy,基本上把爬虫常用套路全部都封装好了,稍微学习下就会了传送门

回答6：

import java.io.File;import java.io.IOException;import java.io.InputStream;import java.net.URL;import java.net.URLConnection;import org.apache.commons.io.FileUtils;public class SpiderDemo { public static void main(String[] args) throws IOException {//URL url = new URL('http://www.zhongguoxinyongheimingdan.com');//URLConnection connection = url.openConnection();//InputStream in = connection.getInputStream();//File file = new File('F://a.txt');//FileUtils.copyInputStreamToFile(in, file);File srcDir = new File('F://a.txt');String str = FileUtils.readFileToString(srcDir, 'UTF-8');String[] str1 = str.split('href='https://www.haobala.com/wenda/);for (int i = 3; i < str1.length-1; i++) { URL url = new URL('http://www.zhongguoxinyongheimingdan.com'+str1[i].substring(1, 27)); File f = new File('F://abc//'+str1[i].substring(2, 22)); if(!f.exists()){ f.mkdir();File desc1 = new File(f,str1[i].substring(1, 22)+'.txt'); URLConnection connection = url.openConnection(); InputStream in = connection.getInputStream(); FileUtils.copyInputStreamToFile(in, desc1); String str2 = FileUtils.readFileToString(desc1, 'UTF-8'); String[] str3 = str2.split('' src='https://www.haobala.com/wenda/10676.html'); for(int j = 1;j<str3.length-2;j++){URL url1 = new URL(str3[j].substring(0, 81));URLConnection connection1 = url1.openConnection();connection1.setDoInput(true);InputStream in1 = connection1.getInputStream();File desc2 = new File(f,str3[j].substring(44,76)+'.jpg');FileUtils.copyInputStreamToFile(in1, desc2); } } }} }

简单的代码把中国信用黑名单网站的所有照片保存到本地网站本身简单！不过当场这个网站奔溃了也是醉了！

Python 编程

上一条：Python如何考虑代码注入安全？下一条：python - try应该写在for里面还是外面

相关文章：

1. html - 特殊样式按钮点击按下去要有凹下和弹起的效果2. angular.js - angularjs 与requirejs集成3. java - yuicompressor-maven-plugin 合并可用却不压缩, 哪配置不对？4. android - textview在获取网络数据填充之后，占据的是默认的大小，点击之后才会包裹内容。5. android有ldpi, mdpi, hdpi, xhdpi这些drawable文件夹，系统是依据什么去选择的？6. Java 在内部类中访问变量。需要宣布为最终7. Java中的多人游戏。将客户端（玩家）连接到其他客户端创建的游戏8. angular.js - ng-grid 和tabset一起用时，grid width默认特别小9. python - pyspider爬取了接近1G的数据，无法导出csv？10. mysql中 when then 的优化

排行榜

					
					angular.js - ng-grid 和tabset一起用时，grid width默认特别小
angular.js - angularjs 与requirejs集成
java - yuicompressor-maven-plugin 合并可用却不压缩, 哪配置不对？
android有ldpi, mdpi, hdpi, xhdpi这些drawable文件夹，系统是依据什么去选择的？
android - textview在获取网络数据填充之后，占据的是默认的大小，点击之后才会包裹内容。
html - 特殊样式按钮 点击按下去要有凹下和弹起的效果
Java中的多人游戏。将客户端（玩家）连接到其他客户端创建的游戏
Java 在内部类中访问变量。需要宣布为最终
mysql中 when then 的优化
angular.js - angular中的a标签不起作用
vue.js - weex 没有背景图片属性怎么办？
				

热门标签