小小課堂:搜索引擎蜘蛛如何爬行與抓取頁面?

搜索引擎蜘蛛,在搜索引擎系統中又被稱之為“蜘蛛”或“機器人”,是用來爬行和訪問頁面的程序今天,小小課堂為大家帶來的是搜索引擎蜘蛛是如何爬行與抓取頁面的教程。希望對大家有所幫助。

小小課堂:搜索引擎如何爬行與抓取頁面?

一、搜索引擎蜘蛛簡介

搜索引擎蜘蛛,在搜索引擎系統中又被稱之為“蜘蛛”或“機器人”,是用來爬行和訪問頁面的程序。

① 爬行原理

搜索引擎蜘蛛訪問網頁的過程,就好比用戶使用的瀏覽器。

搜索引擎蜘蛛向頁面發出訪問請求,該頁面的服務器則返回該頁面的HTML代碼。

搜索引擎蜘蛛將收到的HTML代碼存入搜索引擎的原始頁面數據庫中。

② 如何爬行

為了提高搜索引擎蜘蛛的工作效率,通常采用多個蜘蛛并發分布爬行。

同時,分布爬行還分為兩種模式:深度優先和廣度優先。

深度優先:沿著發現的鏈接一直爬行,直到沒有任何鏈接。

廣度優先:先這一頁面上的所有鏈接爬行完畢之后,才會沿著第二層頁面繼續這樣爬行。

③ 蜘蛛必遵守的協議

搜索引擎蜘蛛在訪問網站之前,都會先訪問網站根目錄下的robots.txt文件。

搜索引擎蜘蛛不會去抓取robots.txt文件中禁止爬行的文件或目錄。

④ 常見搜索引擎蜘蛛

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

有道蜘蛛:YoudaoBot,YodaoBot

搜狗蜘蛛:Sogou News Spider

必應蜘蛛:bingbot

Alexa蜘蛛:ia_archiver

二、如何吸引更多搜索引擎蜘蛛

互聯網信息爆炸,搜索引擎蜘蛛不可能將所有網站的所有鏈接全部爬行到,那么如何吸引更多的搜索引擎蜘蛛到我們網站上來爬行變得非常重要。

① 導入鏈接

無論是外部鏈接,還是內部鏈接,只有有導入,才能被搜索引擎蜘蛛知道該頁面的存在。所以,多多做外鏈建設有助于吸引更多蜘蛛來訪。

② 頁面更新頻率

頁面更新頻率越高,搜索引擎蜘蛛來訪的次數也會越多。

③ 網站和頁面權重

整個網站的權重以及某一頁面的權重(包括首頁也是頁面)影響著蜘蛛的來訪頻率,權重高、權威性強的網站一般都會增加搜索引擎蜘蛛的好感。

④ 與首頁的距離

首頁>一級目錄>二級目錄>三級目錄>四級目錄…很顯然,目錄越深蜘蛛來訪的幾率和次數就會越少,因為一般外鏈都是指向首頁的,首頁再向下爬行,只會越來越少。

這里給小小課堂的建議是,做外鏈的時候,不要只做首頁外鏈,偶爾做一做欄目和聚合頁面的外鏈也還是不錯的哦~

有些時候,URL短,蜘蛛可能也會覺得這個鏈接的權重哦,所以,最好只做一級欄目,然后就是文章頁面。

三、搜索引擎蜘蛛地址庫

搜索引擎蜘蛛有一個專門的地址庫,用來存放已經被發現的URL(已被抓取和未被抓取的都算,只要是被發現的URL都算),這樣就不會出現重復爬行和抓取頁面的情況了。

① 地址庫URL來源

蜘蛛抓取的頁面中發現的新的URL;

站長后臺自主提交的URL;

站長后臺提交的XML地圖中的URL;

站長后臺提交的網站URL;

② 對于未被抓取的URL

對于未被抓取的URL,不管是以什么方式獲取的,哪怕是搜索引擎蜘蛛自己發現的,也會先放入地址庫中,然后在做統一抓取。

四、頁面數據存儲

搜索引擎蜘蛛將抓取的頁面數據會存入搜索引擎的原始頁面數據庫中,其實,就可以理解為快照中看到的頁面數據,和用戶看到的是一樣的,每一個頁面的URL地址都有一個唯一的編號。

五、復制內容檢測

搜索引擎蜘蛛在爬行的過程中,會進行一定程度的復制內容檢測。如果是權重低的網站上,發現了大量的轉載或抄襲內容時,可能會停止爬行,這些頁面可能也會不抓取與收錄。

當然這但并不是說網站就不能轉載,像一些權重很高的平臺,哪怕是轉載了一篇舊聞排名也可以很好,所以大家還是盡量提升自己的網站權重吧!畢竟對于網站來說,權重即正義!

avatar

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: