javascript - nodejs抓取网站的翻页判断和言语判断问题.
问题描述
网址 http://www.everlight.com/news...两个问题 1 : 怎么取得每页的url2 是 点开新闻的内容, 比如 http://www.everlight.com/news...如果是英文的操作系统,显示的是英语新闻,如果是中文系统,则显示中文新闻,我想在node里面固定抓取英文新闻,怎么处理.
问题解答
回答1:问题关闭...
在post的时候,form里面有几个关键性的数据,是放在也没的hidden变量里面,指定了这些变量应该就能解决.
回答2:右上角有个切换语言的,看一下代码,是调用了这个函数:function __doPostBack(eventTarget, eventArgument) {
if (!theForm.onsubmit || (theForm.onsubmit() != false)) { theForm.__EVENTTARGET.value = eventTarget; theForm.__EVENTARGUMENT.value = eventArgument; theForm.submit();}
}
其实就是提交了一下表单,而表单是有post的方式发送的原页面所以,你点击后会看到页面有闪一下,但网址并没有变化。所以,如果你要英文版的,post方式传参数:__EVENTTARGET='ctl00$ctl00$lBtnUSA'过去就可以获得英文版的页面。
获取页面内的url,去解析dom就行了。
获取页面中的url的方法:
var jsdom = require('jsdom'); jsdom.env({ url: 'http://www.everlight.com/newsdetail.aspx?pcseq=4&cseq=7&seq=291', scripts: ['http://code.jquery.com/jquery.js'], done: function (err, window) { var $ = window.$; console.log('HN Links'); $('a').each(function() { //console.log(' -', $(this).text()); var tmp=$(this).text()+'---'+$(this).attr('href'); console.log(tmp); }); }});回答3:
这个还是分析一下request 中的header信息吧,里面有一项是可以利用设置语言的
相关文章:
1. html5 - 百度Ueditor代码高亮和代码段滚动条冲突是怎么回事?2. javascript - 静态页面引公共头尾文件,js怎么写吖?3. docker gitlab 如何git clone?4. javascript - 读取页面源码,页面中所有的换行都被当成<br/>读取出来 了,,求解应该怎么让它被正确的解析5. javascript - 关于一段 for 循环代码执行顺序的问题6. java - 3个dao的数据根据请求参数选择一个映射到一个url上,怎么写比较好?7. docker 17.03 怎么配置 registry mirror ?8. docker网络端口映射,没有方便点的操作方法么?9. 如何调整IDEA中直接运行java程序的日志输出级别?10. docker绑定了nginx端口 外部访问不到