国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達(dá)式|C/C++|IOS|C#|Swift|Android|VB|R語(yǔ)言|JavaScript|易語(yǔ)言|vb.net|

香港云服务器
服務(wù)器之家 - 編程語(yǔ)言 - Java教程 - java實(shí)現(xiàn)爬蟲爬網(wǎng)站圖片的實(shí)例代碼

java實(shí)現(xiàn)爬蟲爬網(wǎng)站圖片的實(shí)例代碼

2021-05-06 11:50dingzfeng Java教程

這篇文章主要介紹了java實(shí)現(xiàn)爬蟲爬網(wǎng)站圖片的實(shí)例代碼,需要的朋友可以參考下

第一步,實(shí)現(xiàn) linkqueue,對(duì)url進(jìn)行過(guò)濾和存儲(chǔ)的操作

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
import java.util.arraylist;
import java.util.collections;
import java.util.hashset;
import java.util.list;
import java.util.set;
public class linkqueue {
  // 已訪問(wèn)的 url 集合
  private static set<string> visitedurl = collections.synchronizedset(new hashset<string>());
  // 未訪問(wèn)的url
  private static list<string> unvisitedurl = collections.synchronizedlist(new arraylist<string>());
  // 未訪問(wèn)的url出隊(duì)列
  public static string unvisitedurldequeue() {
    if (unvisitedurl.size() > 0) {
      string url = unvisitedurl.remove(0);
      visitedurl.add(url);
      return url;
    }
    return null;
  }
  // 新的url添加進(jìn)來(lái)的時(shí)候進(jìn)行驗(yàn)證,保證只是添加一次
  public static void addunvisitedurl(string url) {
    if (url != null && !url.trim().equals("") && !visitedurl.contains(url)
        && !unvisitedurl.contains(url))
      unvisitedurl.add(url);
  }
  // 判斷未訪問(wèn)的url隊(duì)列中是否為空
  public static boolean unvisitedurlsempty() {
    return unvisitedurl.isempty();
  }
}

第二步,收集每一個(gè)url下的鏈接進(jìn)行過(guò)濾產(chǎn)生新的鏈接

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
import java.util.hashset;
import java.util.set;
import org.htmlparser.node;
import org.htmlparser.nodefilter;
import org.htmlparser.parser;
import org.htmlparser.filters.nodeclassfilter;
import org.htmlparser.filters.orfilter;
import org.htmlparser.tags.linktag;
import org.htmlparser.util.nodelist;
import org.htmlparser.util.parserexception;
/**
 * 過(guò)濾http的url,獲取可以符合規(guī)則的url
 * @author administrator
 *
 */
public class parserhttpurl {
  // 獲取一個(gè)網(wǎng)站上的鏈接,filter 用來(lái)過(guò)濾鏈接
  public static set<string> extraclinks(string url, linkfilter filter) {
    set<string> links = new hashset<string>();
    try {
      parser parser = new parser(url);
      // 過(guò)濾 <frame >標(biāo)簽的 filter,用來(lái)提取 frame 標(biāo)簽里的 src 屬性所表示的鏈接
      nodefilter framefilter = new nodefilter() {
        public boolean accept(node node) {
          if (node.gettext().startswith("frame src=")) {
            return true;
          } else {
            return false;
          }
        }
      };
      // orfilter 來(lái)設(shè)置過(guò)濾 <a> 標(biāo)簽,和 <frame> 標(biāo)簽
      orfilter linkfilter = new orfilter(new nodeclassfilter(
          linktag.class), framefilter);
      // 得到所有經(jīng)過(guò)過(guò)濾的標(biāo)簽
      nodelist list = parser.extractallnodesthatmatch(linkfilter);
      for (int i = 0; i < list.size(); i++) {
        node tag = list.elementat(i);
        if (tag instanceof linktag)// <a> 標(biāo)簽
        {
          linktag link = (linktag) tag;
          string linkurl = link.getlink();// url
          if (filter.accept(linkurl))
            links.add(linkurl);
        } else// <frame> 標(biāo)簽
        {
          // 提取 frame 里 src 屬性的鏈接如 <frame src="test.html"/>
          string frame = tag.gettext();
          int start = frame.indexof("src=");
          frame = frame.substring(start);
          int end = frame.indexof(" ");
          if (end == -1)
            end = frame.indexof(">");
          string frameurl = frame.substring(5, end - 1);
          if (filter.accept(frameurl))
            links.add(frameurl);
        }
      }
    } catch (parserexception e) {
      e.printstacktrace();
    }
    return links;
  }
}

第三步,實(shí)現(xiàn)圖片下載功能 

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
import java.io.file;
import java.io.fileoutputstream;
import java.io.inputstream;
import java.net.url;
import java.net.urlconnection;
import java.util.arraylist;
import java.util.list;
import java.util.regex.matcher;
import java.util.regex.pattern;
/***
 * java抓取網(wǎng)絡(luò)圖片
 *
 * @author swinglife
 *
 */
public class downloadpic {
  // 編碼
  private static final string ecoding = "utf-8";
  // 獲取img標(biāo)簽正則
  private static final string imgurl_reg = "<img.*src=(.*?)[^>]*?>";
  // 獲取src路徑的正則
  private static final string imgsrc_reg = "http:"?(.*?)("|>|\s+)";
  public static void downloadpic(string url) {
    // 獲得html文本內(nèi)容
    string html = null;
    try {
      html = downloadpic.gethtml(url);
    } catch (exception e) {
      e.printstacktrace();
    }
    if (null != html && !"".equals(html)) {
      // 獲取圖片標(biāo)簽
      list<string> imgurl = downloadpic.getimageurl(html);
      // 獲取圖片src地址
      list<string> imgsrc = downloadpic.getimagesrc(imgurl);
      // 下載圖片
      downloadpic.download(imgsrc);
    }
  }
  /***
   * 獲取html內(nèi)容
   *
   * @param url
   * @return
   * @throws exception
   */
  private static string gethtml(string url) throws exception {
    url uri = new url(url);
    urlconnection connection = uri.openconnection();
    inputstream in = connection.getinputstream();
    byte[] buf = new byte[1024];
    int length = 0;
    stringbuffer sb = new stringbuffer();
    while ((length = in.read(buf, 0, buf.length)) > 0) {
      sb.append(new string(buf, ecoding));
    }
    in.close();
    return sb.tostring();
  }
  /***
   * 獲取imageurl地址
   *
   * @param html
   * @return
   */
  private static list<string> getimageurl(string html) {
    matcher matcher = pattern.compile(imgurl_reg).matcher(html);
    list<string> listimgurl = new arraylist<string>();
    while (matcher.find()) {
      listimgurl.add(matcher.group());
    }
    return listimgurl;
  }
  /***
   * 獲取imagesrc地址
   *
   * @param listimageurl
   * @return
   */
  private static list<string> getimagesrc(list<string> listimageurl) {
    list<string> listimgsrc = new arraylist<string>();
    for (string image : listimageurl) {
      matcher matcher = pattern.compile(imgsrc_reg).matcher(image);
      while (matcher.find()) {
        listimgsrc.add(matcher.group().substring(0,
            matcher.group().length() - 1));
      }
    }
    return listimgsrc;
  }
  /***
   * 下載圖片
   *
   * @param listimgsrc
   */
  private static void download(list<string> listimgsrc) {
    for (string url : listimgsrc) {
      try {
        string imagename = url.substring(url.lastindexof("/") + 1,
            url.length());
        url uri = new url(url);
        inputstream in = uri.openstream();
        fileoutputstream fo = new fileoutputstream(new file(imagename));
        byte[] buf = new byte[1024];
        int length = 0;
        while ((length = in.read(buf, 0, buf.length)) != -1) {
          fo.write(buf, 0, length);
        }
        in.close();
        fo.close();
      } catch (exception e) {
        e.printstacktrace();
      }
    }
  }
}

實(shí)在filter接口,定義過(guò)濾接口:

?
1
2
3
public interface filter {
  public boolean accept(string url);
}

第四步,過(guò)濾規(guī)則的實(shí)現(xiàn):

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
public class crawler {
  /**
   * 抓取過(guò)程
   *
   * @return
   * @param seeds
   */
  public void crawling(string url) { // 定義過(guò)濾器
    filter filter = new filter() {
      public boolean accept(string url) {
        //這里過(guò)濾規(guī)則隨需要爬的網(wǎng)站的規(guī)則進(jìn)行改變,推薦使用正則實(shí)現(xiàn),本人是爬豆瓣網(wǎng)站
        if(url.indexof("douban.com/group/topic") != -1 || url.indexof("douban.com/group/haixiuzu/discussion?start") != -1 )
          return true;
        else
          return false;
      }
    };
    // 初始化 url 隊(duì)列
    linkqueue.addunvisitedurl(url);
    // 循環(huán)條件,待抓取的鏈接不空
    while (!linkqueue.unvisitedurlsempty()) {
      // 隊(duì)頭url出隊(duì)列
      string visiturl = (string) linkqueue.unvisitedurldequeue();
      if (visiturl == null)
        continue;
      downloadpic.downloadpic(visiturl);
      // 提取出下載網(wǎng)頁(yè)中的 url
      set<string> links = parserhttpurl.extraclinks(visiturl, filter);
      // 新的未訪問(wèn)的 url 入隊(duì)
      for (string link : links) {
        linkqueue.addunvisitedurl(link);
      }
    }
  }
  // main 方法入口
  public static void main(string[] args) {
    crawler crawler = new crawler();
    crawler.crawling("http://www.douban.com/group/haixiuzu/discussion?start=0");
  }
}

總結(jié)

以上所述是小編給大家介紹的java實(shí)現(xiàn)爬蟲爬網(wǎng)站圖片的實(shí)例代碼,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)服務(wù)器之家網(wǎng)站的支持!

原文鏈接:https://blog.csdn.net/dingzfeng/article/details/80536987

延伸 · 閱讀

精彩推薦
631
主站蜘蛛池模板: 激情总合网 | 91久久国产露脸精品国产护士 | 91精品国产日韩91久久久久久 | 欧美日韩午夜 | 欧美一区二区三区在线观看视频 | 无码日韩精品一区二区免费 | 国产视频网 | 国产一级毛片电影 | 日本a在线天堂 | 狠狠干狠狠干 | 亚洲91| 夜夜嗨av色一区二区不卡 | 精品在线一区二区三区 | 亚洲午夜电影 | 亚洲精品视频在线观看免费视频 | 亚洲国产精品自拍 | 亚洲视频天堂 | 视频网站免费观看 | 精品一区二区在线观看 | 午夜啪 | 国产精品永久免费视频 | 91精品国产九九九久久久亚洲 | 国产精品尤物 | 色偷偷888欧美精品久久久 | 自拍视频在线观看 | 成人国产精品一级毛片视频 | 欧美黑人性暴力猛交喷水 | 一区二区免费 | 久久99精品久久久久久国产越南 | 精品在线观看一区 | 中文字幕高清免费日韩视频在线 | 亚洲精品a | 伊人网电影 | 精品国产一区二区三区性色av | 免费又黄又爽又猛的毛片 | 天堂资源网| 黄久久久 | 成人毛片久久 | 久久综合成人精品亚洲另类欧美 | 亚洲高清视频在线 | 五月宗合网 |