黄频视频免费国产_亚洲 欧美 日韩 第三区_亚洲中文视频_欧美在线中文字幕乱码_最近更新手机中文字幕大全

經(jīng)典案例
  • 江蘇佰納德自控設(shè)備有限公司
  • 尚科照明集團(tuán)有限公司
  • 江蘇啟翔光電科技有限公司
  • 高郵市明源照明科技有限公司
  • 揚州凱德斯環(huán)保設(shè)備有限公司A
  • 揚州市潤澤光電科技有限公司
  • 揚州吉佳電氣科技有限公司
  • 南京超控電子有限公司
  • 上海自動化儀表股份有限公司

百度蜘蛛的爬取策略介紹

發(fā)布于:2018-01-02 09:16來源:未知 作者:admin 點擊:

  揚州網(wǎng)站建設(shè)和你來談一談百度蜘蛛的爬取策略

  spider在抓取過程中面對著復(fù)雜的網(wǎng)絡(luò)環(huán)境,為了使系統(tǒng)可以抓取到盡可能多的有價值資源并保持系統(tǒng)及實際環(huán)境中頁面的一致性同時不給網(wǎng)站體驗造成壓力,會設(shè)計多種復(fù)雜的抓取策略。以下簡單介紹一下抓取過程中涉及到的主要策略類型:

  1、抓取友好性:抓取壓力調(diào)配降低對網(wǎng)站的訪問壓力

  2、常用抓取返回碼示意

  3、多種url重定向的識別

  4、抓取優(yōu)先級調(diào)配

  5、重復(fù)url的過濾

  6、暗網(wǎng)數(shù)據(jù)的獲取

  7、抓取反作弊

  8、提高抓取效率,高效利用帶寬

  1、抓取友好性

  互聯(lián)網(wǎng)資源龐大的數(shù)量級,這就要求抓取系統(tǒng)盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。這就造成了另一個問題,耗費被抓網(wǎng)站的帶寬造成訪問壓力,如果程度過大將直接影響被抓網(wǎng)站的正常用戶訪問行為。因此,在抓取過程中就要進(jìn)行一定的抓取壓力控制,達(dá)到既不影響網(wǎng)站的正常用戶訪問又能盡量多的抓取到有價值資源的目的。

  通常情況下,最基本的是基于ip的壓力控制。這是因為如果基于域名,可能存在一個域名對多個ip(很多大網(wǎng)站)或多個域名對應(yīng)同一個ip(小網(wǎng)站共享ip)的問題。實際中,往往根據(jù)ip及域名的多種條件進(jìn)行壓力調(diào)配控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調(diào)配對自己網(wǎng)站的抓取壓力,這時百度spider將優(yōu)先按照站長的要求進(jìn)行抓取壓力控制。

  對同一個站點的抓取速度控制一般分為兩類:其一,一段時間內(nèi)的抓取頻率;其二,一段時間內(nèi)的抓取流量。同一站點不同的時間抓取速度也會不同,例如夜深人靜月黑風(fēng)高時候抓取的可能就會快一些,也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷的調(diào)整。對于不同站點,也需要不同的抓取速度。

tag標(biāo)簽:
------分隔線----------------------------
------分隔線----------------------------
在線客服
熱線電話
183-6131-0036
+