好看的电视剧,有声小说下载,盗墓笔记小说下载

搜索引擎蜘蛛是如何爬行與抓取頁面的

2018-08-14 標簽：常州網(wǎng)絡公司常州網(wǎng)站建設常州網(wǎng)絡推廣

一、搜索引擎蜘蛛簡介

搜索引擎蜘蛛，在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機器人”，是用來爬行和訪問頁面的程序。

1、抓取網(wǎng)頁。每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲（spider）。爬蟲Spider順著網(wǎng)頁中的超鏈接，從這個網(wǎng)站爬到另一個網(wǎng)站，通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應用很普遍，理論上，從一定范圍的網(wǎng)頁出發(fā)，就能搜集到絕大多數(shù)的網(wǎng)頁。

2、處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后，還要做大量的預處理工作，才能提供檢索服務。其中，最重要的就是提取關鍵詞，建立索引庫和索引。其他還包括去除重復網(wǎng)頁、分詞（中文）、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。

3、提供檢索服務。用戶輸入關鍵詞進行檢索，搜索引擎從索引數(shù)據(jù)庫中找到匹配該關鍵詞的網(wǎng)頁；為了用戶便于判斷，除了網(wǎng)頁標題和URL外，還會提供一段來自網(wǎng)頁的摘要以及其他信息。

4、常見搜索引擎蜘蛛

百度蜘蛛：Baiduspider

谷歌蜘蛛：Googlebot

360蜘蛛：360Spider

SOSO蜘蛛：Sosospider

有道蜘蛛：YoudaoBot，YodaoBot

搜狗蜘蛛：Sogou News Spider

必應蜘蛛：bingbot

Alexa蜘蛛：ia_archiver

二、如何吸引更多搜索引擎蜘蛛

互聯(lián)網(wǎng)信息爆炸，搜索引擎蜘蛛不可能將所有網(wǎng)站的所有鏈接全部爬行到，那么如何吸引更多的搜索引擎蜘蛛到我們網(wǎng)站上來爬行變得非常重要。

① 導入鏈接

無論是外部鏈接，還是內部鏈接，只有有導入，才能被搜索引擎蜘蛛知道該頁面的存在。所以，多多做外鏈建設有助于吸引更多蜘蛛來訪。

② 頁面更新頻率

頁面更新頻率越高，搜索引擎蜘蛛來訪的次數(shù)也會越多。

③ 網(wǎng)站和頁面權重

整個網(wǎng)站的權重以及某一頁面的權重（包括首頁也是頁面）影響著蜘蛛的來訪頻率，權重高、權威性強的網(wǎng)站一般都會增加搜索引擎蜘蛛的好感。

④ 與首頁的距離

首頁>一級目錄>二級目錄>三級目錄>四級目錄…很顯然，目錄越深蜘蛛來訪的幾率和次數(shù)就會越少，因為一般外鏈都是指向首頁的，首頁再向下爬行，只會越來越少。

這里給大家的建議是，做外鏈的時候，不要只做首頁外鏈，偶爾做一做欄目和聚合頁面的外鏈也還是不錯的哦~

有些時候，URL短，蜘蛛可能也會覺得這個鏈接的權重哦，所以，最好只做一級欄目，然后就是文章頁面。

seo

三、搜索引擎蜘蛛地址庫

搜索引擎蜘蛛有一個專門的地址庫，用來存放已經(jīng)被發(fā)現(xiàn)的URL（已被抓取和未被抓取的都算，只要是被發(fā)現(xiàn)的URL都算），這樣就不會出現(xiàn)重復爬行和抓取頁面的情況了。

① 地址庫URL來源

蜘蛛抓取的頁面中發(fā)現(xiàn)的新的URL；

站長后臺自主提交的URL；

站長后臺提交的XML地圖中的URL；

站長后臺提交的網(wǎng)站URL；

② 對于未被抓取的URL

對于未被抓取的URL，不管是以什么方式獲取的，哪怕是搜索引擎蜘蛛自己發(fā)現(xiàn)的，也會先放入地址庫中，然后在做統(tǒng)一抓取。

四、頁面數(shù)據(jù)存儲

搜索引擎蜘蛛將抓取的頁面數(shù)據(jù)會存入搜索引擎的原始頁面數(shù)據(jù)庫中，其實，就可以理解為快照中看到的頁面數(shù)據(jù)，和用戶看到的是一樣的，每一個頁面的URL地址都有一個唯一的編號。

五、復制內容檢測

搜索引擎蜘蛛在爬行的過程中，會進行一定程度的復制內容檢測。如果是權重低的網(wǎng)站上，發(fā)現(xiàn)了大量的轉載或抄襲內容時，可能會停止爬行，這些頁面可能也會不抓取與收錄。

但并不是說網(wǎng)站就不能轉載，像一些權重很高的平臺，哪怕是轉載了一篇舊聞排名也可以很好，因為搜索引擎蜘蛛可能會覺得，就算是舊聞可能也是高質量的吧。

国产精品小说久久婷婷_日韩欧美一区二区三区_国产精品极品在线观看_国产成人AV在线播放_九九在线视频观看精品_看久久久黄色大片_女乡长的太紧了太深_youjizz丰满熟妇日本韩国_69成人免费视频无码专区_乱伦欧美中文亚洲