国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|JAVA教程|ASP教程|

服務器之家 - 編程語言 - JAVA教程 - java分析html算法(java網頁蜘蛛算法示例)

java分析html算法(java網頁蜘蛛算法示例)

2019-11-15 14:40java教程網 JAVA教程

近來有些朋友在做蜘蛛算法,或者在網頁上面做深度的數據挖掘,下面使用示例

遇到復雜而繁瑣的html頁面大家都望而卻步。因為很難獲取到相應的數據。

最古老的辦法的是嘗試用正則表達式,估計那么繁瑣的東西得不償失,浪費我們寶貴的時間。

第二個辦法用開源組織htmlparser的包,這個是一個比較老的項目,但是效果估計不是很好,好像不可以深入分析html,只能分析5級的結構;

我這里有個htmlparser的源代碼,可以獲取所有的超鏈接的

 

復制代碼代碼如下:


   /*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */
package test;

 

import java.util.HashMap;
import java.util.Map;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;


public class GetLinkTest {

    public static void main(String[] args) {

        try {
            // 通過過濾器過濾出<A>標簽
            Parser parser = new Parser("//www.jfrwli.cn");
            NodeList nodeList = parser.extractAllNodesThatMatch(new NodeFilter() {
                // 實現該方法,用以過濾標簽
                public boolean accept(Node node) {
                    if (node instanceof LinkTag)// 標記
                    {
                        return true;
                    }
                    return false;
                }
            });
            // 打印
            for (int i = 0; i < nodeList.size(); i++) {
                LinkTag n = (LinkTag) nodeList.elementAt(i);
                //System.out.print(n.getStringText() + " ==>> ");
                //System.out.println(n.extractLink());
                try {
                    if (n.extractLink().equals("//www.jfrwli.cn")) {
                        System.out.println(n.extractLink());
                    }
                } catch (Exception e) {
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

    }
}

 

第三個辦法,也是我現在一直在用的辦法,首先把html清理為xml,然后用java解析xml獲取數據,現在上傳一個java clean html的源代碼:

 

復制代碼代碼如下:

/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */
package exec;

import java.io.File;
import java.io.IOException;
import org.htmlcleaner.CleanerProperties;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.PrettyXmlSerializer;
import org.htmlcleaner.TagNode;

/**
 *
 */
public class HtmlClean {

    public void cleanHtml(String htmlurl, String xmlurl) {
        try {
            long start = System.currentTimeMillis();

            HtmlCleaner cleaner = new HtmlCleaner();
            CleanerProperties props = cleaner.getProperties();
            props.setUseCdataForScriptAndStyle(true);
            props.setRecognizeUnicodeChars(true);
            props.setUseEmptyElementTags(true);
            props.setAdvancedXmlEscape(true);
            props.setTranslateSpecialEntities(true);
            props.setBooleanAttributeValues("empty");

            TagNode node = cleaner.clean(new File(htmlurl));

            System.out.println("vreme:" + (System.currentTimeMillis() - start));

            new PrettyXmlSerializer(props).writeXmlToFile(node, xmlurl);

            System.out.println("vreme:" + (System.currentTimeMillis() - start));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 成人午夜精品久久久久久久3d | 一级欧美| 欧美极品一区二区 | 青春草国产免费福利视频一区 | 亚洲精品一二区 | 在线看一区 | 日韩成人小视频 | 午夜在线观看视频 | 精品久久一二三区 | 成人精品在线视频 | 极品粉嫩饱满一线天在线 | 一本色道久久综合狠狠躁篇怎么玩 | 综合久久亚洲 | 成人免费一区二区三区视频网站 | 日本中文字幕在线播放 | 狠狠干天天草 | 无毛网站 | 免费观看在线午夜影视 | 国内精品视频一区 | 亚洲成人一区在线观看 | 免费看少妇高潮一级毛片特黄 | 日韩av一级片 | 国产精品第一国产精品 | 伊人五月天在线 | 在线成人福利 | 午夜精品电影 | 精品一二区 | 日韩成人av在线 | 欧美日韩精品电影 | 综合久久一区 | 九九热精品视频在线观看 | 黄色一级片在线观看 | 日本精品久久久 | 午夜成人免费视频 | 精品久久久久一区二区国产 | 国产成人精品一区二区三区视频 | 精品国产乱码久久久久久图片 | 日韩在线观看中文字幕 | 欧美一级一区 | 黄色毛片视频网站 | 免费的av网站|