非貪婪匹配 (.*?)
1
2
3
4
|
import re a = '456qwe789rty123abc' re = re.findall( '456(.*?)789' ,a) print (re) |
通常情況,滿足匹配規(guī)則“456(.*?)789”的內(nèi)容通常不止一個(gè),那么findall()函數(shù)會(huì)從字符串的起始位置開(kāi)始尋找文本a,找到后開(kāi)始尋找文本b,當(dāng)找到第一個(gè)文本b后,暫時(shí)停止尋找,將文本a和文本b之間的內(nèi)容存入列表;然后繼續(xù)尋找文本a,并重復(fù)之前的步驟,直到到達(dá)字符串的結(jié)束位置,并將所有匹配到的內(nèi)容存入列表。
1
2
3
4
|
import re a = '456qwe789rty123456kkk789abc456xiaowang789' re = re.findall( '456(.*?)789' ,a) print (re) |
貪婪模式的話就會(huì)尋找最長(zhǎng)的
1
2
3
4
|
import re a = '456qwe789rty123456kkk789abc456xiaowang789' re = re.findall( '456(.*)789' ,a) print (re) |
非貪婪匹配 .*?
1
2
3
4
|
import re a = '<a href="https://blog.csdn.net/weixin_42403632/article/details/120825546" rel="external nofollow" target="_blank" data-report-click="{"spm":"3001.5501"}" data-report-query="spm=3001.5501" data-v-6fe2b6a7="">' re = re.findall( '<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?' ,a) print (re) |
" 和 url后面的html代碼
用.*?
代表,需要提取的是<a href="
后的內(nèi)容,用“(.*?)”代表
實(shí)戰(zhàn)爬取博客專(zhuān)欄url
1
2
3
4
5
6
7
8
|
import re,requests url = 'https://blog.csdn.net/weixin_42403632/category_11076268.html' headers = { 'user-agent' : 'mozilla/5.0 (windows nt 10.0; win64; x64; rv:93.0) gecko/20100101 firefox/93.0' } html = requests.get(url,headers = headers).text re = re.findall( '<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?rel="noopener">' ,html) for i in re: print (i) |
到此這篇關(guān)于輕松入門(mén)正則表達(dá)式之非貪婪匹配篇詳解的文章就介紹到這了,更多相關(guān)正則表達(dá)式 非貪婪匹配內(nèi)容請(qǐng)搜索服務(wù)器之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持服務(wù)器之家!
原文鏈接:https://blog.csdn.net/weixin_42403632/article/details/120827713