古詩詞大全網 - 成語查詢 - robots是什麽以及如何正確建立robots文件

robots是什麽以及如何正確建立robots文件

robots是什麽?

robots是壹個協議,是建立在網站根目錄下的壹個以(robots.txt)結尾的文本文件,對搜索引擎蜘蛛的壹種限制指令。是蜘蛛程序爬行網站第壹個要訪問抓取的頁面,網站可以通過robots協議來告訴搜索引擎蜘蛛程序哪些頁面可以抓取,哪些頁面不可以抓取。

robots協議用來告訴搜索引擎哪些頁面能被抓取,哪些頁面是不能被抓取的,我們通常用 robots來屏蔽網站的壹些垃圾頁面、重復頁面、死鏈接通、動態和靜態多路徑的同壹頁面。這麽做的好處是可以節省壹部分的服務器帶寬,同時也方便蜘蛛程序更好的來抓取網站內容。其實robots就像壹個指路標壹樣,引導著蜘蛛程序爬取網站頁面。

robots符號介紹

首先我們先來認識壹下書寫robots時常用到的幾個字符

User-agent:寫義搜索引擎類型,這裏的首字母要大寫U,結尾冒號:後要加壹個空格鍵,如 User-agent:* 不帶空格,User-agent: * 帶空格的。

* 這裏的星號是壹個通配符,匹配0或多個任意字符

$ 是壹個結束符

Disallow:表示不希望被訪問的目錄或URL

Allow:表示希望被訪問的目錄或URL

robots的確定寫法

寫法壹:禁止所有搜索引擎來抓取網站任何頁面

User-agent: *(此處*號也可以寫成禁止某個蜘蛛抓取,例如百度的 User-agent: Baiduspider)

Disallow: /

寫法二:允許所有搜索引擎抓取網站任何頁面

User-agent: *

Allow: /

當然如果允許的話也可以寫個空的robots.txt放網站根目錄

其它寫法舉例:

User-agent: * 代表所有搜索引擎

Disallow: /abc/ 表示禁止抓取abc目錄下的目錄

Disallow: /abc/*.html 表示禁止抓取此目錄下所有以 .html為後綴的URL包含子目錄

Disallow: /*?*禁止抓取所有帶?問號的URL

Disallow: /*jpg$ 禁止所有以.jpg結尾格式的圖片

Disallow: /ab 禁止抓取所有以ab 開頭的文件

Disallow: /ab/a.html 禁止抓取ab文件夾下面的a.html 文件

Allow: /ABC/ 表示允許抓取abc目錄下的目錄

百度robots的寫法

淘寶robots的寫法

最後附上我自己網站robots的寫法

好了就先舉例這些,最後讓提醒各位站長,慎重寫robots協議,確保網站上線之前解決所有問題後,建立robots.txt文本到根目錄。

85、Mr宋 94-80 作業