如果需要采集網(wǎng)站登錄后顯示的信息,可以嘗試獲取賬號(hào)登錄網(wǎng)站后的cookie值,填寫到簡(jiǎn)數(shù)采集器登錄采集。
獲取與填寫cookie信息操作步驟如下:
獲取網(wǎng)站cookie的方式一般有以下兩種:
最簡(jiǎn)單的方法是通過現(xiàn)代瀏覽器來獲取,以chrome為例:
1. F12或右鍵檢查進(jìn)入開發(fā)者模式界面;
2. 點(diǎn)擊NetWork,F(xiàn)5重新加載頁(yè)面;
3. 選擇對(duì)應(yīng)頁(yè)面名稱的html文件;
4. 獲取cookie;
通過fiddler工具抓取網(wǎng)站的cookie,相比較 “方式1通過瀏覽器獲取“ 會(huì)比較麻煩,如果需要查看具體操作步驟,請(qǐng)查看本文最后的補(bǔ)充內(nèi)容。
把獲取的cookie信息拷貝到采集器中,再打開詳情提取器加載即可查看到之前隱藏的內(nèi)容;
簡(jiǎn)數(shù)采集器有兩處入口可填寫cookie:(填寫其中一處即可)
I、點(diǎn)擊 “啟動(dòng) | 定時(shí)采集 ” ,在網(wǎng)絡(luò)配置中填上相關(guān)信息;
II、詳情提起器左側(cè)列表的網(wǎng)絡(luò)配置:
注意:如果還是無法顯示登錄后的內(nèi)容,請(qǐng)?jiān)?“Cookie域名” 處填上對(duì)應(yīng)域名,不用加上http協(xié)議,例如:www.g6p.com.cn
到此就完成采集網(wǎng)站登錄的數(shù)據(jù)信息。
還可以使用fiddler工具來進(jìn)行抓??;(如果已經(jīng)使用瀏覽器獲取cookie,可以跳過這一步,直接到第二步--獲取的cookie填寫入簡(jiǎn)數(shù))
fiddler是介于客戶端和服務(wù)器端的HTTP代理,也是常用的http抓包工具之一 。 它可以記錄下客戶端和服務(wù)器之間的所有HTTP請(qǐng)求,也可以針對(duì)指定的HTTP請(qǐng)求,進(jìn)分析請(qǐng)求數(shù)據(jù)、設(shè)置斷點(diǎn)、修改請(qǐng)求的數(shù)據(jù),甚至還可以修改服務(wù)器返回的數(shù)據(jù),功能十分強(qiáng)大,是網(wǎng)站調(diào)試的得力助手。
fiddler官網(wǎng)下載: https://www.telerik.com/download/fiddler
下載安裝完成后,按照以下流程來操作:(本文章是基于Fiddler 4版本)
1. 右側(cè)顯示頁(yè)面中先選擇Inspectors欄;
2. 由于左側(cè)顯示頁(yè)面已有許多訪問網(wǎng)站的信息,我們接下先清空一下,方便接下來尋找指定的網(wǎng)頁(yè);
可以用快捷鍵ctrl+x或者在左側(cè)顯示頁(yè)面右鍵Remove------>>all sessions;
3. 接下來登陸上需要抓取cookie的網(wǎng)站或者刷新已經(jīng)登錄的網(wǎng)頁(yè),就可以在左側(cè)顯示欄輕松找到網(wǎng)站的Host(網(wǎng)站域名)+ URL,以我這個(gè)
例子,選取的就是這一條,注意URL內(nèi)容是斜杠 / 的那一條信息;
4. 右邊顯示欄選擇raw欄,這時(shí)能看到獲取的cookie了;
5. 為了獲取完整的cookie,我們點(diǎn)擊右側(cè)顯示欄中間的view in Notepad,即打開記事本來獲取完整的cookie;