javascript - nodejs抓取网页的问题
问题描述
我准备抓用nodejs抓取下面这个网站的所有新闻, 按照一般的思路,是首先取得每页新闻的URL,然后取得每个新闻的URL按照使用request把每个网址的内容取下来就OK了.
但是下面的这个网址的所有分页信息, 还有每个新闻点击进去URL都没有任何变化, 貌似都是在后台通过js实现的.用chrome的F12的newwork的tab也查看不到有什么请求,有哪位大神能指导一下我怎么来抓取吗?
http://www.xxxxxxxxx.com/glob...
问题解答
回答1:1.从上一篇与下一篇的地方可以看到,click绑定的函数:boardView(1);
2.通过boadrview在页面中找到对应的函数:
function boardView(idx){ var listNum = 10; // 목록 수 지정 var resultLenplistNum = Math.floor(idx/listNum); // 결과 나누기 목록수 var resultLenRestlistNum = Math.floor(idx%listNum); // 결과 나머지 목록수 if (resultLenRestlistNum == 0){ pageNum = resultLenplistNum; } else { pageNum = resultLenplistNum + 1; } cmsView.style.display = ’block’; cmsList.style.display = ’none’; resultViewStr = ’<p class='news_view'><p class='news_hd'>’; resultViewStr = resultViewStr + ’<strong>’+list.artCatTitles[resultSearch[idx]] +’</strong>’; resultViewStr = resultViewStr + ’<p>’+list.artTitles[resultSearch[idx]]+’</p>’; resultViewStr = resultViewStr + ’<span>’+list.artTimes[resultSearch[idx]]+’</span></p>’; resultViewStr = resultViewStr + ’<p class='news_bd'>’+list.artTexts[resultSearch[idx]]; resultViewStr = resultViewStr + list.artFiles[resultSearch[idx]]+’</p>’; resultViewStr = resultViewStr + ’<p class='news_link'><ul>’; resultViewStr = resultViewStr + ’<li><strong><span></span>’;
.........
3.看到数据来自于list这个变量,再寻找list
4.在1739行看到:
var artId = '';var catId = 'se14_24';var tplId = '';list = new jsList();list.cmsInit(catId, artId, tplId, new data()); // list 객체 생성
5.调用了一个构造函数:jsList()找到相应的代码在这里:http://www.samsungsem.com/js/...
6 看回第2步的代码:list.artTitles-->这些数据是通过jsList的cmsInit方法设置的,而cmsInit中:
function cmsInit(catId, artId, tplId, data) { this.artIds = data.artIds; this.artCatTitles = data.artCatTitles; this.artTitles = data.artTitles; this.artUrls = data.artUrls; this.artTimes = data.artTimes; this.artImgs = data.artImgs; this.artTexts = data.artTexts; this.artTexts2 = data.artTexts2; this.artKeywords = data.artKeywords; this.artFiles = data.artFiles;
...的数据来自第四个参数data
7.再看第4步的传的data是new data()于是,我们找到data这个函数定义的地方。往上找,找到了:<script src='https://www.haobala.com/global/news/data.js.jsp'></script>
8.打开后看一下:http://www.samsungsem.com/glo... 好奇怪的感觉,怎么样式那么奇怪?
再右键查看源代码:view-source:http://www.samsungsem.com/glo...可以看到data函数是在这里定义的,而你看到的数据也在这个页面里。
回答2:多谢回答,我先去看看去.....
基本看明白了,还有一点不是很懂的地方再慢慢去看,多谢了..
相关文章:
1. javascript - vue 数据更新了。但是dom没有更新,,,,,如图2. java基础,求解答。3. debian - docker依赖的aufs-tools源码哪里可以找到啊?4. docker api 开发的端口怎么获取?5. javascript - 读取页面源码,页面中所有的换行都被当成<br/>读取出来 了,,求解应该怎么让它被正确的解析6. html5 - 百度Ueditor代码高亮和代码段滚动条冲突是怎么回事?7. java - 为什么要将Runnable接口的子类对象传递给Thread的构造函数?8. javascript - 关于一段 for 循环代码执行顺序的问题9. 如何调整IDEA中直接运行java程序的日志输出级别?10. javascript - 静态页面引公共头尾文件,js怎么写吖?