我們以內容頁網址http://kimi201406.1688.com/page/creditdetail.htm為例,來獲取它的公司介紹和聯系方式頁面的聯系方式信息。
公司介紹在網址http://kimi201406.1688.com/page/creditdetail.htm里獲取,而聯系方式信息在網址http://kimi201406.1688.com/page/contactinfo.htm里獲取。所以我們需要借助多頁功能來實現。前者叫默認頁地址,后者叫做多頁地址。
流程:點擊①創建多頁,進行②多頁設置,然后在數據來源③選擇多頁調用,最后根據多頁源代碼設置提取方式。
下面重點講解②,多頁地址的兩種獲取方式:頁面地址替換和源碼中截取。
1.頁面地址替換:也就是默認頁和多頁地址有相同的地方,通過簡單的替換就可以變成多頁地址。
比較默認頁“http://kimi201406.1688.com/page/creditdetail.htm”和多頁地址:“http: //kimi201406.1688.com/page/contactinfo.htm”之間的共同點,可以發現默認頁“creditdetail.htm”替換為“contactinfo.htm”就是我們的多頁地址了。
設置如下圖:
注:正則表達式中 (.*) 為任意通配符。$1,$2…$數字來按照順序對應上面(.*)表示的部分。若要對多頁源碼部分區域做限定,可在指定多頁源碼區域設置。
若留空則默認返回多頁整個源代碼。設置好以后,點擊測試查看結果即可。
2.源碼中截取:也就是多頁的地址在默認頁的頁面源代碼里面。
如圖,可以看到默認頁源碼中存在多頁地址。
所以設置如下:
測試后如正確則保存即可。最后設置數據來源和提取方式,如圖:
注:如需要多級多頁,則在多頁地址獲取方式選擇需要的多頁即可
這兩種獲取方式大家掌握了嗎,今后在抓取網站時使用火車采集器V9的上述操作就可以很容易地獲取到關聯的多頁地址了,作為一款功能全面的網站抓取精靈,火車采集器一定會充分考慮到用戶的使用需求,以及如何最大化實現便利