国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務器之家 - 編程語言 - Java教程 - Java實現從Html文本中提取純文本的方法

Java實現從Html文本中提取純文本的方法

2021-05-04 11:39fjssharpsword Java教程

今天小編就為大家分享一篇Java實現從Html文本中提取純文本的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

1、應用場景:從一份html文件中或從String(是html內容)中提取純文本,去掉網頁標簽;

2、代碼一:replaceAll搞定

?
1
2
3
4
5
6
//從html中提取純文本
public static String StripHT(String strHtml) {
String txtcontent = strHtml.replaceAll("</?[^>]+>", ""); //剔出<html>的標簽
txtcontent = txtcontent.replaceAll("<a>\\s*|\t|\r|\n</a>", "");//去除字符串中的空格,回車,換行符,制表符
return txtcontent;
}

3、代碼二:正則表達式搞定

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
//從html中提取純文本
    public static String Html2Text(String inputString) {
        String htmlStr = inputString; // 含html標簽的字符串
        String textStr = "";
        java.util.regex.Pattern p_script;
        java.util.regex.Matcher m_script;
        java.util.regex.Pattern p_style;
        java.util.regex.Matcher m_style;
        java.util.regex.Pattern p_html;
        java.util.regex.Matcher m_html;
        try {
            String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定義script的正則表達式{或<script[^>]*?>[\\s\\S]*?<\\/script>
      String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定義style的正則表達式{或<style[^>]*?>[\\s\\S]*?<\\/style>
      String regEx_html = "<[^>]+>"; // 定義HTML標簽的正則表達式
      p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
      m_script = p_script.matcher(htmlStr);
      htmlStr = m_script.replaceAll(""); // 過濾script標簽
      p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
      m_style = p_style.matcher(htmlStr);
      htmlStr = m_style.replaceAll(""); // 過濾style標簽
      p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
      m_html = p_html.matcher(htmlStr);
      htmlStr = m_html.replaceAll(""); // 過濾html標簽
      textStr = htmlStr;
     } catch (Exception e) {System.err.println("Html2Text: " + e.getMessage()); }
        //剔除空格行
        textStr=textStr.replaceAll("[ ]+", " ");
        textStr=textStr.replaceAll("(?m)^\\s*$(\\n|\\r\\n)", "");
        return textStr;// 返回文本字符串
    }

4、代碼三:HTMLEditorKit.ParserCallback搞定,Java自帶的類

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
package com.util;
import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class Html2Text extends HTMLEditorKit.ParserCallback {
     StringBuffer s;
     public Html2Text() {}
     public void parse(Reader in) throws IOException {
     s = new StringBuffer();
     ParserDelegator delegator = new ParserDelegator();
     // the third parameter is TRUE to ignore charset directive
     delegator.parse(in, this, Boolean.TRUE);
     }
     public void handleText(char[] text, int pos) {
     s.append(text);
     }
     public String getText() {
     return s.toString();
     }
     public static void main (String[] args) {
     try {
      // the HTML to convert
         //Reader in=new StringReader("string");   
      FileReader in = new FileReader("java-new.html");
      Html2Text parser = new Html2Text();
      parser.parse(in);
      in.close();
      System.out.println(parser.getText());
     }
     catch (Exception e) {
      e.printStackTrace();
     }
     }
}

以上這篇Java實現從Html文本中提取純文本的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持服務器之家。

原文鏈接:https://blog.csdn.net/fjssharpsword/article/details/53467079

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25 Weibo Article 26 Weibo Article 27 Weibo Article 28 Weibo Article 29 Weibo Article 30 Weibo Article 31 Weibo Article 32 Weibo Article 33 Weibo Article 34 Weibo Article 35 Weibo Article 36 Weibo Article 37 Weibo Article 38 Weibo Article 39 Weibo Article 40
主站蜘蛛池模板: 久久久久久久久久久久久大色天下 | 免费操片| www.亚洲黄色 | 欧美日韩视频在线 | 国产91久久久久蜜臀青青天草二 | 午夜激情影视 | 偷拍自拍网| 国产精品久久久久免费a∨ 欧美黄色精品 | 日韩成人高清视频 | 欧美精品一区二区三区中文字幕 | 婷婷综合| 精品久久久久久久久久久久久久 | 四虎久久 | 伊人网视频 | 一级片少妇 | 国产a级黄色毛片 | 羞羞视频免费观看网站 | 天天干天天搞天天射 | 欧美一区二区三区的 | 青娱乐一区| 无码日韩精品一区二区免费 | 久操资源 | 亚洲成av人片一区二区梦乃 | 中文字幕不卡在线观看 | 国产福利电影在线观看 | 成人永久免费视频 | 欧美亚洲视频在线观看 | 99在线观看 | 免费的av网站 | 伊人天堂在线 | 久久中国| 日本网站在线免费观看 | 自拍在线| 日韩手机在线 | 免费黄色小片 | 亚洲一区二区三区四区五区中文 | 中文字幕 亚洲一区 | 激情视频综合网 | 国产色区| 久久国产精品免费一区二区三区 | 精品国产精品三级精品av网址 |