POST TIME:2017-11-22 22:53
楚截圖和文字分不清楚,因此用粉色背景來區(qū)分。
第一步、確定采集的網(wǎng)站(我們以DEDE的官方站做為采集站做示范)
第二步、確定被采集站的編碼。打開被采集的網(wǎng)頁之后,查看源代碼(IE:查看 - > 源代碼)
在 之間找到 charset 這個,后面就顯示網(wǎng)頁的編碼了,截圖的是 “gb2312”
第三步、采集列表獲取規(guī)則寫法
[var:分頁]
文章網(wǎng)址需包含 網(wǎng)址不能包含 這兩個一般不用寫,用于采集列表范圍有很多不需要的連接才用到他來做過濾使用。
如果只有一個列表頁,那么在來源網(wǎng)址就直接寫上網(wǎng)址就OK了。
注意這里,最關鍵就是這里。
下面就是“采集獲取文章列表的規(guī)則寫法”,
就是上面打開的被采集頁面的源代碼文件,找到文章列表之前 和本頁面沒有其他相同的代碼
在DedeCms官方站的列表頁文章列表之前和之后最近的且沒有相同的是“
”和“ ”,分別寫入“起始HTML”和“結束HTML”,寫法看截圖
第四步、采集文章標題,文章內容,文章作者,文章來源等規(guī)則寫法,分頁采集等。
“起始HTML”和“結束HTML”寫法參考第三步中的“獲取文章列表的規(guī)則寫法”
下面講的是如何采集分頁內容 看截圖圈著的地方 截圖
文檔是否分頁 里面選擇“全部列出的分頁列表”
“起始HTML”和“結束HTML”寫法參考第三步中的“獲取文章列表的規(guī)則寫法”
當然 上面這些不能用來采集帶有視頻的,因為已經(jīng)過濾了,后面的四行是過濾掉視頻的。