robots是壹個協議,是建立在網站根目錄下的壹個以(robots.txt)結尾的文本文件,對搜索引擎蜘蛛的壹種限制指令。是蜘蛛程序爬行網站第壹個要訪問抓取的頁面,網站可以通過robots協議來告訴搜索引擎蜘蛛程序哪些頁面可以抓取,哪些頁面不可以抓取。
robots協議用來告訴搜索引擎哪些頁面能被抓取,哪些頁面是不能被抓取的,我們通常用 robots來屏蔽網站的壹些垃圾頁面、重復頁面、死鏈接通、動態和靜態多路徑的同壹頁面。這麽做的好處是可以節省壹部分的服務器帶寬,同時也方便蜘蛛程序更好的來抓取網站內容。其實robots就像壹個指路標壹樣,引導著蜘蛛程序爬取網站頁面。
robots符號介紹
首先我們先來認識壹下書寫robots時常用到的幾個字符
User-agent:寫義搜索引擎類型,這裏的首字母要大寫U,結尾冒號:後要加壹個空格鍵,如 User-agent:* 不帶空格,User-agent: * 帶空格的。
* 這裏的星號是壹個通配符,匹配0或多個任意字符
$ 是壹個結束符
Disallow:表示不希望被訪問的目錄或URL
Allow:表示希望被訪問的目錄或URL
robots的確定寫法
寫法壹:禁止所有搜索引擎來抓取網站任何頁面
User-agent: *(此處*號也可以寫成禁止某個蜘蛛抓取,例如百度的 User-agent: Baiduspider)
Disallow: /
寫法二:允許所有搜索引擎抓取網站任何頁面
User-agent: *
Allow: /
當然如果允許的話也可以寫個空的robots.txt放網站根目錄
其它寫法舉例:
User-agent: * 代表所有搜索引擎
Disallow: /abc/ 表示禁止抓取abc目錄下的目錄
Disallow: /abc/*.html 表示禁止抓取此目錄下所有以 .html為後綴的URL包含子目錄
Disallow: /*?*禁止抓取所有帶?問號的URL
Disallow: /*jpg$ 禁止所有以.jpg結尾格式的圖片
Disallow: /ab 禁止抓取所有以ab 開頭的文件
Disallow: /ab/a.html 禁止抓取ab文件夾下面的a.html 文件
Allow: /ABC/ 表示允許抓取abc目錄下的目錄
百度robots的寫法
淘寶robots的寫法
最後附上我自己網站robots的寫法
好了就先舉例這些,最後讓提醒各位站長,慎重寫robots協議,確保網站上線之前解決所有問題後,建立robots.txt文本到根目錄。
85、Mr宋 94-80 作業