新聞詳情
談談搜索引擎是如何判別重復頁面的標準是什么 二維碼
599
發表時間:2018-01-20 15:41作者:津坤科技團隊 在搜索引擎的網頁索引庫里重復網頁有多種類型,這些重復網頁有的是沒有一點兒改動的副本,有的在內容形式上稍做修改,還有就是出現的時間早晚,有的則僅是網頁的。我們將這些歸類得出不同內容重復可以歸結為以下4種類型。
1: 如果兩篇文檔內容和布局格式毫無別則這種重復可以同做完全重復頁面。
2: 如果兩篇文檔內容相,們是布局格式不同,則叫內容重復頁面。
3: 如果兩篇文檔有部分重要的內容相同,并布局格式相同,則稱為布局重復頁面。
4: 如果兩篇文檔有部分重要的內容相,是布局格式不同,則稱為部分重復頁面。
所謂近似重復網頁發現,就是通過技術手段快速全面發現這些重復信息的手段,如何快速準確地發現這些內容上相似的網頁已經成為提高搜索引擎服務質量的關鍵技術之一。
發現完全相同或者近似重復網頁對于搜索引擎有很多好處。
首先,如果我們能夠找出這些重復網頁并從數據庫中去掉,就能夠節省部分存儲空間,進而可以利用這部分空間存放更多的有效網頁內容,同時也提高了搜索引擎的搜索質量和用戶體驗。
其次,如果我們能夠通過對以往收集信息的分析,預先發現重復網頁,在今后的網頁收集過程中就可以避開這些網頁,從而提高網頁的收集速度。有研究表明重復網頁隨著時間不發生太大變化,所以這種從重復頁面集合中選擇部分頁面進行索引是有效的。
另外,如果某個網頁的鏡像度較高,往往是其內容比較受歡迎的一種間接體現,也就預示著該網頁相對重要,在收集網頁時應賦予它較高的優先級,而當搜索引擎系統在響應用戶的檢索請求并對輸出結果排序時,應該賦了它較高的權值。
從另外一個角度看,如果用戶點擊了一個死鏈接,那么可以將用戶引導到一個內容相同頁面,這樣可以有效地增加用戶的檢索體驗。因而近似重復網頁的及時又現有利于改善搜索引擎系統的服務質量。 |