搜索引擎要知道網(wǎng)上的新生事物,就得派人出去搜集。我們提到,在Yahoo創(chuàng)辦初期,許多編輯天天泡在網(wǎng)上,訪問新鮮網(wǎng)站,然后將搜集來的信息整理成序。當時的網(wǎng)站數(shù)量少,做起來比較容易。而現(xiàn)在新網(wǎng)站的出現(xiàn)數(shù)量、老網(wǎng)的更新都是爆炸式的,靠人工是不可能完成這個任務的。所以,搜索引擎的發(fā)明者就設計了計算機程序,派它們來執(zhí)行這個任務。
探測器有多種叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(機器人)。這些形象的叫法是描繪搜索引擎派出的蜘蛛機器人爬行在互聯(lián)網(wǎng)上探測新的信息。Google把它的探測器叫做Googlebot,百度就叫Baiduspider,MSN oU
MSNbot.而Yahoo則稱為Slurp。這個探測器實際上是人們編制的計算機程序,蟲它不分晝夜地進入訪問各個網(wǎng)站,取回網(wǎng)站內(nèi)容、標簽、圖片等,然后依照搜素引擎的算法給它們制定成索引。所以,這可不是“爬行”而是以光速來訪問的。
一個搜索引擎會同時派遣出許多探測器。這些“機器人”或者從站主直接呈涕的網(wǎng)站URL去訪問,或者由一個網(wǎng)絡用戶所裝的搜索引擎工具欄(比如Google工具欄)得知用戶去的網(wǎng)站,或者是從一個網(wǎng)站中指向另一個網(wǎng)站的鏈接過去。
探測器不一定是從網(wǎng)站的首頁進入訪問,所以,如果你要探測器訪問你的其他網(wǎng)夏,那么這個進入頁就需要和其他網(wǎng)頁相連。達到這個目的最容易的辦法就是在每一頁都加入指向首頁的鏈接。
但是,探測器對許多網(wǎng)站是不能完整取回信息的,這個大多是由于網(wǎng)站的設計沒有按照搜索引擎探測器的思路來進行優(yōu)化。比如,如果一個網(wǎng)頁比較大,探測器也只能截取網(wǎng)頁的首都,而且只能跟著少量的鏈接走。Google目前能夠吸收100KB的文件,Yahoo會多一點。這個可以通過實驗來檢驗。將一個搜索關(guān)鍵詞放在一個很長的網(wǎng)頁(約160KB)最后部分,然后看Google的緩存(cache)中顯現(xiàn)網(wǎng)頁的大小是多少。如果不出意料,Google的cache說這個網(wǎng)頁只有101KB。很顯然,一部分內(nèi)容沒有被Google抓走。
請立即點擊咨詢我們或撥打咨詢熱線: 021-60554347,我們會詳細為你一一解答你心中的疑難。項目經(jīng)理在線