文章详情页

网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码？

【字号：大中小】日期：2022-09-13 10:39:57浏览：9作者：猪猪

问题描述

我在做一个python爬虫，使用了selenium库和phantomjs浏览器。我在一个网页中触发了一个click事件打开了一个新的网页，然后我用browser.page_source得到的却是原来那个网页非新打开网页的源码，请问我该如何取得新打开页面的源码呢？

问题解答

回答1：

如果链接打开了一个新标签页的话，你的driver还是下默认使用的还是当前窗口，

Alternatively, you can pass a “window handle” to the “switch_to_window()” method. Knowing this, it’s possible to iterate over every open window like so:

for handle in driver.window_handles: driver.switch_to_window(handle)

比如，如果你的浏览器有几个标签页，那么window_handles就保存了对应这几个标签页对应的实例对象，所以如果你当前只打开了一个网页，那么你新打开的页面就是 window_handles[1]转换到那个页面后，再获取源码。

回答2：

如果是在当前窗口打开，有可能因为新页面还没有加载完成，到时拿不到新页面的url和数据，这里可以使用等待，并设置一些条件，确保新页面加载完成再进行操作，代码如下：

from selenium.webdriver.support.ui import WebDriverWait# 等待新页面生成WebDriverWait(self.browser, 5).until( expected_conditions.presence_of_element_located((By.ID, 'username') )

Python 编程

上一条：python爬取页面时，一个URL无法访问导致报错，然后跳过这个报错继续抓取？下一条：python - Django问题 ’WSGIRequest’ object has no attribute ’user’

排行榜

					
					node.js - nvm怎么更新node的最新版本呀？
html5 - 目前  公司App 嵌入H5页面  做个 手机支付功能  没有做过  所以 请求各位有经验的  给个思路
PHP单例模式
Angular.js 无法设置Authorization头，该怎么解决？
angular.js - angular内容过长展开收起效果
angular.js使用$resource服务把数据存入mongodb的问题。
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
html5 - Vue绑定动态变量不可用
docker不显示端口映射呢？
dockerfile - [docker build image失败- npm install]
php laravel框架模型作用域
				

热门标签