網(wǎng)站建設(shè)定制蜘蛛爬行程序
- 編輯:admin -搜索引擎利用蜘蛛爬行程序在互聯(lián)網(wǎng)上抓取頁面進(jìn)行存儲的過程, 為搜索引擎提供數(shù)據(jù)支持, 這便是頁面收錄。然后對進(jìn)行收錄的頁面進(jìn)行頁面分析, 頁面分析是處理整個(gè)頁面的重要環(huán)節(jié)。
蜘蛛爬行程序。搜索引擎利用蜘蛛爬行程序在互聯(lián)網(wǎng)上抓取頁面進(jìn)行存儲的過程, 為搜索引擎提供數(shù)據(jù)支持, 這便是頁面收錄。然后對進(jìn)行收錄的頁面進(jìn)行頁面分析, 頁面分析是處理整個(gè)頁面的重要環(huán)節(jié)。首先會對原始頁面建立索引, 根據(jù)URL地址實(shí)現(xiàn)對頁面的快速定位, 然后提取頁面的正文信息, 并對正文信息進(jìn)行切詞, 為這些關(guān)鍵字建立索引, 從而得到關(guān)鍵字與頁面的對應(yīng)關(guān)系, 最后對關(guān)鍵字執(zhí)行重組, 建立關(guān)鍵字與頁面對應(yīng)的反向索引列表, 從而能根據(jù)關(guān)鍵字快速找到相應(yīng)網(wǎng)頁。搜索引擎還會對頁面進(jìn)行排序, 搜索引擎結(jié)合頁面的內(nèi)外因素計(jì)算出頁面與關(guān)鍵字相關(guān)程度, 從而得到與關(guān)鍵字相關(guān)頁面排序列表。當(dāng)搜索引擎接收來自用戶的關(guān)鍵字查詢請求后并對查詢的信息進(jìn)行切詞, 匹配信息, 向用戶返回相應(yīng)的頁面列表。
