揚州網(wǎng)站建設(shè)和你來談一談百度蜘蛛的爬取策略
spider在抓取過程中面對著復(fù)雜的網(wǎng)絡(luò)環(huán)境,為了使系統(tǒng)可以抓取到盡可能多的有價值資源并保持系統(tǒng)及實際環(huán)境中頁面的一致性同時不給網(wǎng)站體驗造成壓力,會設(shè)計多種復(fù)雜的抓取策略。以下簡單介紹一下抓取過程中涉及到的主要策略類型:
1、抓取友好性:抓取壓力調(diào)配降低對網(wǎng)站的訪問壓力
2、常用抓取返回碼示意
3、多種url重定向的識別
4、抓取優(yōu)先級調(diào)配
5、重復(fù)url的過濾
6、暗網(wǎng)數(shù)據(jù)的獲取
7、抓取反作弊
8、提高抓取效率,高效利用帶寬
1、抓取友好性
互聯(lián)網(wǎng)資源龐大的數(shù)量級,這就要求抓取系統(tǒng)盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。這就造成了另一個問題,耗費被抓網(wǎng)站的帶寬造成訪問壓力,如果程度過大將直接影響被抓網(wǎng)站的正常用戶訪問行為。因此,在抓取過程中就要進(jìn)行一定的抓取壓力控制,達(dá)到既不影響網(wǎng)站的正常用戶訪問又能盡量多的抓取到有價值資源的目的。
通常情況下,最基本的是基于ip的壓力控制。這是因為如果基于域名,可能存在一個域名對多個ip(很多大網(wǎng)站)或多個域名對應(yīng)同一個ip(小網(wǎng)站共享ip)的問題。實際中,往往根據(jù)ip及域名的多種條件進(jìn)行壓力調(diào)配控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調(diào)配對自己網(wǎng)站的抓取壓力,這時百度spider將優(yōu)先按照站長的要求進(jìn)行抓取壓力控制。
對同一個站點的抓取速度控制一般分為兩類:其一,一段時間內(nèi)的抓取頻率;其二,一段時間內(nèi)的抓取流量。同一站點不同的時間抓取速度也會不同,例如夜深人靜月黑風(fēng)高時候抓取的可能就會快一些,也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷的調(diào)整。對于不同站點,也需要不同的抓取速度。