帝國cms是我們用得比較多得PHP的建站系統(tǒng),在建站過程中,如果自己沒有信息源,只能靠手工不斷的重復copy和粘貼,這樣費時費力,于是我們就要使用帝國cms自帶的采集功能來完成信息的錄入。為了深入了解帝國cms采集功能,下面我們以“新浪各地新聞”欄目為例來進行實戰(zhàn)采集。
一、增加采集節(jié)點
1、添加節(jié)點:
2、選擇要增加采集的欄目:
3、進入增加節(jié)點表單:
4、在節(jié)點名稱框里起個名字,然后把要采集的新浪各地新聞列表地址copy過來:
5、下來發(fā)現(xiàn)好多選項,如“采集頁面地址方式二,內容頁地址前綴...”先不要理他,后面再一一詳解,直接拉到 “信息鏈接區(qū)域正則”這里:
6、這里是設置采集的列表信息鏈接區(qū)域正則,我們點擊查看新浪各地新聞列表“源文件”:
7、把源文件代碼copy到Dreamweaver里,在Dreamweaver里選定要采集的信息鏈接區(qū)域:
8、切換到Dreamweaver代碼方式,
9、得到信息鏈接區(qū)域正則:
10、得到信息頁鏈接正則:
11、注意:如果信息頁鏈接是相對地址,例如,那么“內容頁地址前綴”要加域名:
12、現(xiàn)在要采集內容頁的標題和內容:
13、查看新聞頁“源文件”,找title標簽:
14、取得標題正則:
15、這里是要采集的內容區(qū)域:
16、取得新聞內容正則:
(注意:新聞內容正則里的 d_id='*' 用了通配符,因為每一篇新聞的d_id值是不同的,所以可以用*來代替它,“*”可以代替任意字符。)
17、點擊提交按鈕就完成了整個采集節(jié)點:
二、預覽采集節(jié)點是否正確
1、提交按鈕后返回管理節(jié)點:
2、點擊“預覽”采集,進入節(jié)點預覽結果:
3、采集內容頁列表:
4、采集內容頁頁面:
三、采集
1、預覽采集節(jié)點無誤后,然后返回“管理節(jié)點”,點擊“開始采集”鏈接就開始進行采集:
2、系統(tǒng)正在采集中:
3、采集完后顯示本地臨時入庫的信息,這時可以對臨時入庫的信息進行修改或者刪除:
4、修改信息頁面如圖:
5、對采集的信息進行審核并入庫,點擊“入庫全部信息按鈕”:
6、確定操作:
7、信息入庫完畢提示:
信息入庫完畢后下來點擊”管理信息“:
我們可以看到剛剛采集入庫的新聞信息:
最后到“數(shù)據(jù)更新”刷新首頁、欄目、和內容頁就可以完成網(wǎng)站的信息采集了。
由于帝國cms采集功能非常強大,一時半刻也說不完,下一講將繼續(xù)講解其他功能的使用和技巧。
就是信息鏈接區(qū)域: