国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達(dá)式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務(wù)器之家 - 編程語言 - Java教程 - java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

2022-02-20 12:01spring小楊 Java教程

這篇文章主要為大家介紹了如何使用java編程實(shí)現(xiàn)一個簡單的網(wǎng)絡(luò)爬蟲示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步

本項(xiàng)目中需要用到兩個第三方j(luò)ar包,分別為 jsoup 和 commons-io。

jsoup的作用是為了解析網(wǎng)頁, commons-io 是為了把數(shù)據(jù)保存到本地。

1.爬取貼吧

第一步,打開eclipse,新建一個java項(xiàng)目,名字就叫做 pachong:

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

然后,新建一個類,作為我們程序的入口。

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

這個作為入口類,里面就寫一個main方法即可。

public class StartUp {
	public static void main(String[] args) {
		
	}
}

第二步,導(dǎo)入我們的依賴,兩個jar包:

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

右鍵jar包,Build path , add to Build path

接著,我們試著搜索一下動漫吧的數(shù)據(jù):

https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5

public class StartUp {

	public static void main(String[] args) {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
	}
}

如果能夠成功打印出來鏈接,說明我們的連接測試是成功的!

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

然后,我們調(diào)用connect的get方法,獲取鏈接到的數(shù)據(jù):

Document document = connect.get(); 

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

這邊需要拋出一個異常,而且是強(qiáng)制性的,因?yàn)橛锌赡軙@取失敗。這邊我們直接拋出去,不去捕獲。

public class StartUp {

	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
		
		Document document = connect.get(); 
		System.out.println(document);
	}
}

打印出來的結(jié)果:

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

可見,document對象裝的就是一個完整HTML頁面。

在這里,我們想要拿到的第一個數(shù)據(jù),就是所有帖子的標(biāo)題:

我們發(fā)現(xiàn),每一個標(biāo)題都是一個a連接,class為j_th_tit 。

下一步我們就考慮獲取所有class為 j_th_tit 的元素。

java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

我們發(fā)現(xiàn),document對象給我們提供了 getElementsByClass 的方法,顧名思義,就是獲取class為 XXX 的元素。

Elements titles = document.getElementsByClass("j_th_tit");

接著,遍歷titles,打印出每一個標(biāo)題的名稱:

for (int i = 0; i < titles.size(); i++) {
	System.out.println(titles.get(i).attr("title"));
}

當(dāng)前代碼:

import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class StartUp {
	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);		
		Document document = connect.get(); 		
		Elements titles = document.getElementsByClass("j_th_tit");		
		for (int i = 0; i < titles.size(); i++) {
			System.out.println(titles.get(i).attr("title"));
		}		
	}
}

以上就是java編程實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程的詳細(xì)內(nèi)容,更多關(guān)于java實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的資料請關(guān)注服務(wù)器之家其它相關(guān)文章!

原文鏈接:https://blog.csdn.net/weixin_39570751/article/details/120713590

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产欧美日韩综合精品 | 欧美精品一二三区 | 日韩精品二区 | 91精品视频在线播放 | 午夜私人影院在线观看 | 羞羞视频在线免费 | 成人一区二区在线 | 亚洲免费观看在线视频 | 九九色综合 | www.青青草 | 亚洲国产精品久久久久婷婷老年 | 成人高清视频在线 | av免费影视 | 婷婷五月色综合香五月 | 黄色av免费在线观看 | 日韩电影一区二区在线观看 | 国产精品区二区三区日本 | 午夜电影网站 | 亚洲一二三 | 亚洲精品成人 | 97久久精品午夜一区二区 | 日本一区二区视频 | 国产精品久久久久久亚洲调教 | 97国产精品久久久 | 亚洲成人免费在线 | 黄色一级视频 | 亚洲国产中文字幕 | 亚洲免费在线看 | 午夜av免费 | 欧美成年黄网站色视频 | 自拍偷拍一区二区三区 | 天天爽夜夜爽夜夜爽精品视频 | 亚洲一区 中文字幕 | 色狠狠久久av五月综合 | 成人在线免费看 | 性欧美精品久久久久久久 | 国产精品自拍视频 | 91久久精品日日躁夜夜躁国产 | 97久久精品人人澡人人爽 | 亚洲欧美在线播放 | 四房婷婷 |