文章详情页

java获取文件编码,jsoup获取html纯文本操作

浏览：2日期：2022-08-26 17:12:55

maven引入获取编码的jar

获取文件编码

package com.lovnx.note.util;import com.ibm.icu.text.CharsetDetector;import com.ibm.icu.text.CharsetMatch;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; import java.io.IOException;import java.net.URL;import java.nio.file.Files;import java.nio.file.Path;import java.nio.file.Paths; /** * @author @256g的胃 * @ClassName HtmlParse * @Description * @Date 15:32 2020/7/9 **/public class HtmlParse { public static String getEncode(String filePath) throws IOException { Path path = Paths.get(filePath); byte[] data = Files.readAllBytes(path); CharsetDetector detector = new CharsetDetector(); detector.setText(data); CharsetMatch match = detector.detect(); String encoding = match.getName(); System.out.println('The Content in ' + match.getName()); return encoding; } public static void main(String[] args) throws Exception { System.out.println(HtmlParse.getEncode('/Users/cxt/Downloads/test.html')); }}

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式，然后再根据下载下来的文件识别纯文本

Document doc = Jsoup.parse('读取的文本字符串，此处应该是带html标签的');

String text = doc.text();

jsoup也支持直接指定文件的形式去获取纯文本

参考 https://jsoup.org/

补充知识：java 解析html/读取html内容

jsoup

String 转化

1、Document doc = Jsoup.parse(html);

例如：

String html = '<html><head><title>First parse</title></head>' + '<body><p>Parsed HTML into a doc.</p></body></html>'; Document doc = Jsoup.parse(html); System.out.println(doc.text()); ;

常用api

2、获取节点文本：Document.text();

以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持好吧啦网。

Java

上一条：java读取html文件,并获取body中所有的标签及内容的案例下一条：java 实现Comparable接口排序,升序、降序、倒叙

排行榜

					
					idea设置自动导入依赖的方法步骤
python实现线性回归算法
基于SpringBoot bootstrap.yml配置未生效的解决
Docker容器如何更新打包并上传到阿里云
Docker容器网络端口配置过程详解
django从后台返回html代码的实例
ASP.NET MVC使用异步Action的方法
Vue如何提升首屏加载速度实例解析
Java JUC中操作List安全类的集合案例
利用CSS3新特性创建透明边框三角
基于javaweb+jsp实现企业财务记账管理系统
				

热门标签