文章详情页
python - 请教如何爬取简书某一时间段发帖。
问题描述
我想爬取简书在某一时间段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想尝试的思路如下:
百度
利用百度的 site 语法
限定日期
观察大约有 70 个帖子
google 的 site 语法
限定日期
观察大约有 120 个帖子
实现:用 Python 直接请求搜索的结果,然后把得到的网址重定向一下得到真正的简书网址,然后对真正的网址进行请求
问题
用这种方法得到的结果是否靠谱?请问有更靠谱的方法吗?
用 Google 还是用百度呢?
问题解答
回答1:为了全面,你可以把主流的搜索引擎接口都拿来用,不一定要限制在某个搜索引擎接口上。我们有队友搜索某些话题就是这么干的,因为有的网站站内没提供满足需求的搜索方式,这个时候也只有借助搜索引擎了。不过通过搜索引擎搜索的方式信息可能不全面,robots协议规定了不能搜索的,搜索引擎不会收录
相关文章:
1. docker-compose中volumes的问题2. debian - docker依赖的aufs-tools源码哪里可以找到啊?3. docker网络端口映射,没有方便点的操作方法么?4. PHP中的$this代表当前的类还是方法?5. docker不显示端口映射呢?6. angular.js - angular内容过长展开收起效果7. golang - 用IDE看docker源码时的小问题8. python的MySQLdb包rollback对create语句无效吗?9. html - 这种错位的时间轴怎么布局,然后用css实现?10. javascript - 用swiper.js实现h5多篇文章滑动 点击文章跳转全文是另外的页面 点击返回滑动界面怎么定位到相应的swiper_slide
排行榜