您所在的位置: 首頁(yè)?>?千搜學(xué)院 > 網(wǎng)站優(yōu)化
對于搜索引擎認為重要的頁(yè)面具有以下特征:網(wǎng)站and頁(yè)面的權重:對于質(zhì)量好、網(wǎng)站資格比較舊的會(huì )被認為是權重很高的。這樣的網(wǎng)站,蜘蛛的爬行深度更大,收錄的可能性更高。
更新的速度。蜘蛛在進(jìn)行訪(fǎng)問(wèn)后就將這些數據存下了,要是再一次的訪(fǎng)問(wèn)沒(méi)有內容更新,蜘蛛就不會(huì )老去抓取。要是更新速度很快,蜘蛛就會(huì )經(jīng)常去抓取。這樣子新產(chǎn)生的鏈接,就會(huì )很快的被訪(fǎng)問(wèn)、將新內容抓取。
導入鏈接:
不管是內外部的鏈接,想被蜘蛛抓到,就需要導入鏈接,不然就不會(huì )被蜘蛛知道。質(zhì)量好的導入鏈接能擴大蜘蛛的爬行深度的抓取。
和第一頁(yè)的點(diǎn)擊距:
網(wǎng)站通常極高權重的的部分都是首頁(yè),大多數的外部鏈接指向它。蜘蛛抓取極多的也是首頁(yè),離它越近,權重越高,蜘蛛爬行越頻繁。
地址庫
想要讓網(wǎng)頁(yè)不會(huì )多次的訪(fǎng)問(wèn)、抓取,這時(shí)候需要的是地址庫,記下發(fā)現與抓取的、及發(fā)現了未抓取的網(wǎng)頁(yè)。
這里面的網(wǎng)址有一下幾種收集:
人為輸入的種子網(wǎng)站。
抓取后從超文本標記語(yǔ)言中解析的網(wǎng)址,跟已經(jīng)在地址庫中的網(wǎng)址比較,要是這個(gè)網(wǎng)址里面沒(méi)有,就記錄為帶訪(fǎng)問(wèn)的內容。
站長(cháng)通過(guò)一定渠道提交的網(wǎng)址。
蜘蛛根據網(wǎng)址的重要程度對網(wǎng)址從地址庫進(jìn)行提取,瀏覽,然后將這個(gè)網(wǎng)站從記錄里面刪除,放進(jìn)訪(fǎng)問(wèn)過(guò)的地址里面。
很多的比較重要的搜索引擎都有一個(gè)表格,供站長(cháng)提交網(wǎng)址??墒翘峤坏倪@些網(wǎng)址只是存進(jìn)了這地址庫,想要讓網(wǎng)址被收錄需要看一下所提交內容是不是很重要。對于收錄的內容極大一部分是蜘蛛自己跟蹤發(fā)現的。
所以說(shuō)提交的頁(yè)面基本上是一點(diǎn)用處也沒(méi)有,而搜索引擎更偏向通過(guò)自己尋找鏈接得到頁(yè)面。
文件的儲存
蜘蛛抓取的內容放進(jìn)原始的數據庫。這里面的頁(yè)面和我們訪(fǎng)問(wèn)的超文本標記語(yǔ)言是同樣的。不同的網(wǎng)址是不一樣的文件編碼。
重復內容的檢查
抓取的時(shí)候會(huì )復制內容檢測,這時(shí)候要是內容是轉了其他網(wǎng)站,或者是抄的東西,也許不會(huì )再去爬行。這是很多的網(wǎng)站看到有蜘蛛來(lái),可是網(wǎng)站卻沒(méi)有被收錄的原因。