文章详情页

java - 如何用正则提取html内容

浏览：203日期：2023-12-04 08:35:21

问题描述

<p class='info-detail-head-classify-subname'><a href='https://www.haobala.com/wenda/11492.html' target='_blank'>财富</a></p> 想用java 提取财富两个字请问用正则怎么提取用jsoup会不会简单一点

问题解答

回答1：

可以使用jsoup和regex, 推荐使用jsoup!jsoup document:https://jsoup.org/cookbook/in...http://www.open-open.com/jsoup/

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element;import java.util.regex.Matcher; import java.util.regex.Pattern;public class Main { public static void main(String[] args) {// 方法１: jsoup String html = '<p class='info-detail-head-classify-subname'><a href='https://www.haobala.com/wenda/11492.html' target='_blank'>财富</a></p>';Document doc = Jsoup.parse(html); Element element = doc.getElementById('info_detail_head_classify_type'); System.out.println(element.text());// 方法2: regex Pattern r = Pattern.compile('<a.*>(.*)</a>'); Matcher m = r.matcher(html); if (m.find()) {System.out.println(m.group(1)); }} }回答2：

<a[^>]*>([^<]*)</a>

取<a></a>中的内容

HTML

上一条：java - 反射数组:为什么每次获取Modifiers都是public,abstract,以及final下一条：java - Kafka:如果消息的保存策略被设置为2天，那么在一个消息被发布的两天时间内，它都是可以被消费的。之后它将被丢弃以释放空间。

相关文章：

1. 如何解决docker宿主机无法访问容器中的服务？2. java - xml 传输数据如何处理更好3. javascript - h5上的手机号默认没有识别4. 求大神帮我看看是哪里写错了感谢细心解答5. mysql - 要取出数据库中按某字段排序后的前10，20，30条数据要怎么做？6. python - 类对象函数后面的参数问题，勉强看懂但是要自己写出来就感觉很困难7. javascript - 用原生的js获取body和用jquery获取body的的margin值为什么不一样？8. javascript - 想让图片上那个块，在增加块的宽度的时候向右边移动，而不是向左边移动。需要怎么解决？9. Python Selenium WebDriver如何刷新当前页面10. pycharm运行python3.6突然出现R6034问题，请问如何处理？

排行榜

					
					如何解决docker宿主机无法访问容器中的服务？
javascript - h5上的手机号默认没有识别
java - xml 传输数据如何处理更好
angular.js - angular指令中的scope属性中用&获取父作用域函数的问题
pycharm运行python3.6突然出现R6034问题，请问如何处理？
在windows下安装docker  Toolbox 启动Docker Quickstart Terminal 失败！
求大神帮我看看是哪里写错了  感谢细心解答
android - 自定义View中代码流程问题
网页爬虫 - Python爬虫入门知识
android  glide asbitmap 在baseadpter中的问题
javascript - 请指条明路，angular的$event，在select中却是undefined？
				

热门标签