国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達(dá)式|C/C++|IOS|C#|Swift|Android|VB|R語(yǔ)言|JavaScript|易語(yǔ)言|vb.net|

服務(wù)器之家 - 編程語(yǔ)言 - PHP教程 - PHP使用Curl實(shí)現(xiàn)模擬登錄及抓取數(shù)據(jù)功能示例

PHP使用Curl實(shí)現(xiàn)模擬登錄及抓取數(shù)據(jù)功能示例

2019-10-10 11:26編程人,在天涯 PHP教程

這篇文章主要介紹了PHP使用Curl實(shí)現(xiàn)模擬登錄及抓取數(shù)據(jù)功能,結(jié)合實(shí)例形式分析了php使用curl進(jìn)行登陸、驗(yàn)證、cookie操作與數(shù)據(jù)抓取等相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下

本文實(shí)例講述了PHP使用Curl實(shí)現(xiàn)模擬登錄及抓取數(shù)據(jù)功能。分享給大家供大家參考,具體如下:

使用PHP的Curl擴(kuò)展庫(kù)可以模擬實(shí)現(xiàn)登錄,并抓取一些需要用戶賬號(hào)登錄以后才能查看的數(shù)據(jù)。具體實(shí)現(xiàn)的流程如下(個(gè)人總結(jié)):

1. 首先需要對(duì)相應(yīng)的登錄頁(yè)面的html源代碼進(jìn)行分析,獲得一些必要的信息:

(1)登錄頁(yè)面的地址;

(2)驗(yàn)證碼的地址;

(3)登錄表單需要提交的各個(gè)字段的名稱和提交方式;

(4)登錄表單提交的地址;

(5)另外要需要知道要抓取的數(shù)據(jù)所在的地址。

2. 獲取cookie并存儲(chǔ)(針對(duì)使用cookie文件的網(wǎng)站):

$login_url = 'http://www.xxxxx';  //登錄頁(yè)面地址
$cookie_file = dirname(__FILE__)."/pic.cookie";  //cookie文件存放位置(自定義)
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $login_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
curl_exec($ch);
curl_close($ch);

3. 獲取驗(yàn)證碼并存儲(chǔ)(針對(duì)使用驗(yàn)證碼的網(wǎng)站):

$verify_url = "http://www.xxxx";   //驗(yàn)證碼地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $verify_url);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$verify_img = curl_exec($ch);
curl_close($ch);
$fp = fopen("./verify/verifyCode.png",'w');  //把抓取到的圖片文件寫(xiě)入本地圖片文件保存
fwrite($fp, $verify_img);
fclose($fp);

說(shuō)明:

由于不能實(shí)現(xiàn)驗(yàn)證碼的識(shí)別,所以我這里的做法是,把驗(yàn)證碼圖片抓取下來(lái)存放到本地文件中,然后在自己項(xiàng)目中的html頁(yè)面中顯示,讓用戶去填寫(xiě),等用戶填寫(xiě)完賬號(hào)、密碼和驗(yàn)證碼,并點(diǎn)擊提交按鈕之后再去進(jìn)行下一步的操作。

4. 模擬提交登錄表單:

$ post_url = 'http://www.xxxx';   //登錄表單提交地址
$post = "username=$account&password=$password&seccodeverify=$verifyCode";//表單提交的數(shù)據(jù)(根據(jù)表單字段名和用戶輸入決定)
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $ post_url);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);     //提交方式為post
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_exec($ch);
curl_close($ch);

5. 抓取數(shù)據(jù):

$data_url = "http://www.xxxx";   //數(shù)據(jù)所在地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $data_url);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,0);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
$data = curl_exec($ch);
curl_close($ch);

到目前為止,已經(jīng)把數(shù)據(jù)所在地址的這個(gè)頁(yè)面都抓取下來(lái)存儲(chǔ)在字符串變量$data中了。

需要注意的是抓取下來(lái)的是一個(gè)網(wǎng)頁(yè)的html源代碼,也就是說(shuō)這個(gè)字符串中不僅包含了你想要的數(shù)據(jù),還包含了許多的html標(biāo)簽等你不想要的東西。所以如果你想要從中提取出你需要的數(shù)據(jù)的話,你還要對(duì)存放數(shù)據(jù)的頁(yè)面的html代碼進(jìn)行分析,然后結(jié)合字符串操作函數(shù)、正則匹配等方法從中提取出你想要的數(shù)據(jù)。

以上方法對(duì)使用http協(xié)議的一般網(wǎng)站是有效的。但是如果你要模擬登錄的是使用了https協(xié)議的網(wǎng)站的話還需要添加如下一些處理:

1. 跳過(guò)https驗(yàn)證:

curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

2. 使用用戶代理:

$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);

注意:如果不添加這些處理的話模擬登錄時(shí)是不能成功的。

使用以上程序模擬登錄網(wǎng)站一般都是能成功的,但是實(shí)際上還是需要針對(duì)模擬登錄的網(wǎng)站具體情況具體考慮。例如:有些網(wǎng)站編碼不同,所以你抓取下來(lái)的頁(yè)面是亂碼的,這時(shí)就要進(jìn)行一下編碼轉(zhuǎn)換,如:$data = iconv("gb2312", "utf-8",$data);,把gbk編碼轉(zhuǎn)換為utf8編碼。還有一些對(duì)安全性要求比較高的網(wǎng)站,比如網(wǎng)銀,會(huì)把驗(yàn)證碼放在一個(gè)內(nèi)聯(lián)框架中,這時(shí)你就需要先抓取到內(nèi)聯(lián)框架的頁(yè)面然后在從中提取出驗(yàn)證碼的地址,再去抓取驗(yàn)證碼。還有一些網(wǎng)站(比如網(wǎng)銀)是在js代碼中去提交表單的,提交表單之前還會(huì)去做一些處理,比如加密等,所以如果你是直接提交的話也是不能登錄成功的,你必須要去做類似的處理后再提交,但是這種情況如果你能知道js代碼中進(jìn)行的具體操作,比如加密的話,加密算法是怎樣的,你就可以進(jìn)行跟它一樣的處理,然后再去提交數(shù)據(jù),這樣也是能成功的。但是,關(guān)鍵的地方來(lái)了,如果你根本不知道它進(jìn)行的是什么操作,比如它進(jìn)行了加密,但是你不知道加密的具體算法,那么你就無(wú)法進(jìn)行相同的操作,也就不能成功地模擬登錄了。這方面典型的案例就是網(wǎng)銀,它在js代碼中提交表單之前使用網(wǎng)銀控件對(duì)用戶提交的密碼和驗(yàn)證碼進(jìn)行了一些處理,但是我們根本不知道它進(jìn)行的是什么操作,所以無(wú)法模擬。所以如果你以為你看了本文之后就能模擬登錄網(wǎng)銀的話那么你就太天真了,人家銀行的網(wǎng)站能那么容易被你模擬登錄嗎?當(dāng)然,如果你能破解網(wǎng)銀控件的話,那就另當(dāng)別論了。話說(shuō)回來(lái),為什么我的感受如此深刻,因?yàn)槲揖陀龅竭@個(gè)難題了,不說(shuō)了,說(shuō)多了都是淚啊。。。希望本文所述對(duì)大家PHP程序設(shè)計(jì)有所幫助。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 日本成人片网站 | 欧美日韩激情 | 亚洲wu码 | 日韩久久综合 | 亚洲精品国产成人 | 欧美一区二区三区四区五区 | 羞羞羞网站 | 性高潮一级片 | 亚洲成人av在线 | 亚洲热av| 国产成人精品一区二区三区四区 | av中文字幕在线观看 | 国产精品178页 | 欧美成人精品激情在线观看 | 成人精品视频99在线观看免费 | 亚洲免费二区 | 欧美日韩精品综合 | 一级片观看 | 国产欧美日本 | 欧洲精品码一区二区三区免费看 | 久久青青 | 91免费视频在线 | 久久成人免费 | 在线观看亚洲免费视频 | 日韩精品毛片免费看 | 天天爽天天干 | 色综合久久久久久久久久久 | 亚洲高清视频在线观看 | 91极品视频在线观看 | 国产精品久久久久久久久免费桃花 | 九一视频在线免费观看 | 欧美性猛交一区二区三区精品 | 射久久| 女人性做爰免费网站 | 日韩成人在线一区二区 | 午夜欧美一区二区三区在线播放 | 日韩不卡在线 | 欧洲一区二区三区 | 精品国产乱码久久久久久久软件 | 成人黄色在线观看 | 性吧在线|