| 開始采集 |
| 采集一般步驟: |
| 1、增加采集節(jié)點; |
| 2、預覽采集正則是否正確; |
| 3、開始采集; |
| 4、對采集的數(shù)據(jù)進行審核并入庫; |
| 5、生成欄目及內(nèi)容HTML頁面。 |
| |
| 一、增加采集節(jié)點: |
| 1、登錄后臺->“欄目”>“采集管理”>“增加采集節(jié)點”; |
| 2、“選擇要增加采集的欄目”(選擇終極欄目); |
 |
| 3、“選擇要增加采集的欄目”后進入增加采集節(jié)點頁面; |
| 4、打開要采集的列表頁面:http://www.newskycloth.com/tmp/cjpage/list.html |
 點擊查看“源文件”
 點擊查看,列表頁源代碼為如下:
 |
| 5、開始設置采集節(jié)點及列表頁正則: |
| (1)、輸入節(jié)點名稱:采集實例 |
 |
| (2)、采集頁面地址:http://www.newskycloth.com/tmp/cjpage/list.html |
 |
| (3)、由列表頁的源代碼:“<a href="page1.html" target="_blank">”,我們得出“內(nèi)容頁地址前綴”為:http://www.newskycloth.com/tmp/cjpage/ |
 |
| (4)、設置“信息頁鏈接正則”:由列表頁的源代碼得出。 |
圖1:頁面源代碼
 圖2:得出的信息頁鏈接正則
 |
| 6、點擊采集的內(nèi)容頁頁面并查看源文件:http://www.newskycloth.com/tmp/cjpage/page4.html |
圖1:內(nèi)容頁頁面
 圖2:內(nèi)容頁源代碼
 |
| 7、設置內(nèi)容頁內(nèi)容正則:(標題及內(nèi)容正則) |
| (1)、標題正則:由源代碼內(nèi)容我們得出“新聞標題”正則為: |
圖1:頁面源代碼
 圖2:得出的標題正則
 |
| (2)、內(nèi)容正則:由源代碼內(nèi)容我們得出“新聞內(nèi)容”正則為: |
圖1:頁面源代碼
 圖2:得出的新聞內(nèi)容正則
 |
| 8、點擊“提交”按鈕即可增加節(jié)點完畢,整個表單最終效果如下: |
| [點擊查看] |
| |
| 二、預覽采集正則是否正確: |
| 1、上面增加采集節(jié)點后,我們返回“管理節(jié)點”頁面,如下: |
 |
| 2、點擊“預覽”采集,進入節(jié)點正則預覽與驗證: |
圖1:采集頁面地址列表
 圖2:信息鏈接列表
 圖3:采集的內(nèi)容頁內(nèi)容
 |
| 3、上面鏈接列表頁及內(nèi)容頁內(nèi)容預覽無誤后方可進行采集操作。 |
| |
| 三、開始采集: |
| 1、上面的采集節(jié)點正則預覽無誤后,我們返回“管理節(jié)點”頁面: |
 |
| 2、點擊上面的“開始采集”鏈接,開始進行采集; |
| 3、采集信息完成后,系統(tǒng)會轉向采集入庫頁面,如下: |
 |
| |
| 四、對采集的數(shù)據(jù)進行審核并入庫: |
 即可完成入庫操作:
 管理欄目信息也可以看到我們剛才入庫的信息:
 |
| |
| 五、生成欄目及內(nèi)容HTML頁面: |
| 點擊“系統(tǒng)”>“數(shù)據(jù)更新”>“數(shù)據(jù)更新中心”,進入數(shù)據(jù)更新中心頁面: |
| 1、生成首頁:點擊“刷新首頁”。 |
 |
| 2、生成欄目頁:“刷新多欄目頁面”選擇“國內(nèi)新聞”這個欄目,然后點擊“開始刷新”。 |
 |
| 3、生成內(nèi)容頁:“按條件生成信息內(nèi)容頁面”: |
 |
| |
| 六、預覽前臺頁面 |
首頁:
 |
列表頁:
 |
信息內(nèi)容頁:
 |
| |
| 至此本實例講解完畢。 |