文章详情页

网页爬虫 - 如何使用使用java抓取信息并制作一个排名系统？

浏览：90日期：2023-11-13 14:18:10

问题描述

在学习java web 正好有一个有趣的项目可以做。我们学校需要晨跑刷卡，体育部提供一个查询网站，但是不提供接口。想做一个网站/微信后台从学校网上抓取信息储存到数据库然后用户可以通过我的网站/微信来查询自己的跑操记录。并且根据这些记录显示排名等其他的功能。

查询只需要提供学号和姓名，这个数据已经有了。

模拟登录用httpclient 实现。获取了整个页面页面是一个表格显示记录。该用什么从页面里提取数据呢？

关于java web的方向，我只会用jsp 写一个增删改查。对于之后的内容不是太懂。

我要做这样一个后台管理抓取操作用户查询返回。该从什么地方开始学？或者说使用是什么样的技术/框架呢？

关于查询的网站：有一个元素是跑操次数。之后的是对应的记录每条记录显示跑操时间具体到分钟。

抓取不是最困难的部分，问题是怎么做一个这样一个管理系统对于如何开发一个完整的web全栈没有思路。我发现我不能评论。。。

谢谢！

问题解答

回答1：

我就随便说个，因为我也没想到用什么方法。

用Jsoup去爬页面数据，哈哈

回答2：

想到了几点，简单说下：1.数据抓取，可以自己写抓取程序，制定数据爬取的时间规则之类的2.数据处理，抓取到网页的内容通过jsoup或者其他方式对网页有效内容提取，并设计数据结构，学号应该是唯一的，可以有学员表和晨跑记录表，通过学号进行关联3.我的个人理解是按照次数排序，因为想了下，如果按照时间排序是不合理的，因为是没有办法判断真正的晨跑时间的，那我这里就按次数来说吧，可以直接在学员表存放跑步次数的字段，减少通过记录表查询，提高效率，就是需要数据处理时维护此字段

回答3：

一般来说呢，是基于httpclient这样的工具将返回包拿到，解析报文实体（这里指html页面），接下来就是利用xpath、正则、类似于jQuery方式解析DOM元素获取你想要的数据（如jsoup包），如果还嫌麻烦可以使用webmagic框架

回答4：

模拟登陆：用浏览器打开登陆页观察接收学号密码的url；模拟登陆时post数据到该url；从response的header中解析Set-cookie字段信息；

数据抓取：向体育数据页发起get请求(带上上一步中拿到的cookie字段)，拿到response，然后进行正则解析获得数据即可；

建议：缓存用户每次查询的数据，比如缓存2个小时，建议使用redis；数据库可以存查询到的数据，先从redis中取数据，取不到再模拟登陆拿新数据。至于数据库这一层，个人感觉可有可无，有的话也可以进行数据分析什么的

java

上一条：java - dubbo中session同步问题下一条：java - Android中使用FragmentTransaction对象的add方法后应用闪退

相关文章：

1. javascript - H5页面怎么查看console信息？2. dockerfile - [docker build image失败- npm install]3. docker内创建jenkins访问另一个容器下的服务器问题4. docker不显示端口映射呢？5. mysql - 索引过滤性不好是由什么原因引起的，应该怎么解决6. android - Listview模仿朋友圈点赞的TextView没有刷新？7. 网页爬虫 - Python：爬虫的中文编码问题？8. javascript - vue生成一维码?求助！！！！！急9. javascript - 修改表单多选项时和后台同事配合的问题。10. angular.js - angularjs 怎么封装 upload 上传

排行榜

					
					网页爬虫 - Python：爬虫的中文编码问题？
angular.js - angularjs 怎么封装 upload 上传
javascript - H5页面怎么查看console信息？
android - Listview模仿朋友圈点赞的TextView没有刷新？
mysql - 索引过滤性不好是由什么原因引起的，应该怎么解决
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
dockerfile - [docker build image失败- npm install]
docker不显示端口映射呢？
docker内创建jenkins访问另一个容器下的服务器问题
docker-compose中volumes的问题
javascript - 修改表单多选项时和后台同事配合的问题。
				

热门标签