中文字幕亚洲无码日韩无码_中文字幕有码无码2020_狠狠88综合久久久久综合网_99国产精品热6080YY久久_亚洲bt无码中文字幕

采集技巧：如何不采集非文章頁(yè)面的數(shù)據(jù)

主題：過(guò)濾抓取采集技巧

在列表頁(yè)提取器選擇要采集的網(wǎng)址鏈接時(shí)，中間夾雜著一些多余的頁(yè)面鏈接，例如欄目鏈接、廣告鏈接和標(biāo)簽鏈接等，要怎么解決？

可通過(guò)手寫Xpath值來(lái)精確選擇鏈接區(qū)域來(lái)解決。

但有個(gè)更簡(jiǎn)單的技巧，就是在詳情頁(yè)提取器使用 “采集結(jié)果不得為空” 功能，因?yàn)檫@些多余的頁(yè)面結(jié)構(gòu)排版和常規(guī)的文章頁(yè)面都不一樣，采集時(shí)就會(huì)過(guò)濾掉這些不符合采集規(guī)則的頁(yè)面。

在簡(jiǎn)數(shù)采集器某個(gè)任務(wù)的詳情頁(yè)提取器，選擇或輸入正確的文章頁(yè)面配置采集規(guī)則，title 字段和 content 字段處都勾上 “采集結(jié)果不得為空”即可。

1）采集文章頁(yè)面時(shí)

title和content字段采集時(shí)都獲取到對(duì)應(yīng)的信息，系統(tǒng)就正常采集入庫(kù)這條數(shù)據(jù)。

2）采集非文章頁(yè)面時(shí)（例如廣告，列表頁(yè)面）

title或者content字段采集時(shí)沒(méi)有獲取到信息，系統(tǒng)就會(huì)過(guò)濾不入庫(kù)這條數(shù)據(jù)。

中文字幕亚洲无码日韩无码_中文字幕有码无码2020_狠狠88综合久久久久综合网_99国产精品热6080YY久久_亚洲bt无码中文字幕

采集技巧：如何不采集非文章頁(yè)面的數(shù)據(jù)

1）采集文章頁(yè)面時(shí)

2）采集非文章頁(yè)面時(shí)（例如廣告，列表頁(yè)面）

推薦采集經(jīng)驗(yàn)知識(shí)

最新經(jīng)驗(yàn)知識(shí)

中文字幕亚洲无码日韩无码_中文字幕有码无码2020_狠狠88综合久久久久综合网_99国产精品热6080YY久久_亚洲bt无码中文字幕

采集技巧：如何不采集非文章頁(yè)面的數(shù)據(jù)

1）采集文章頁(yè)面時(shí)

2）采集非文章頁(yè)面時(shí)（例如廣告，列表頁(yè)面）

推薦采集經(jīng)驗(yàn)知識(shí)

最新經(jīng)驗(yàn)知識(shí)

2）采集非文章頁(yè)面時(shí)（例如廣告，列表頁(yè)面）