古詩詞大全網 - 成語經典 - robots文件是什麽意思?他對網站的優化能起到什麽作用?

robots文件是什麽意思?他對網站的優化能起到什麽作用?

Rbots.txt 是什麽:

robots.txt是搜索引擎中訪問網站的時候要查看的第壹個文件。Robots.txt文件告訴蜘蛛程序在服務器上什麽文件是可以被查看的。

當壹個搜索蜘蛛訪問壹個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。

robots.txt必須放置在壹個站點的根目錄下,而且文件名必須全部小寫。

語法:最簡單的 robots.txt 文件使用兩條規則:

User-Agent: 適用下列規則的漫遊器

Disallow: 要攔截的網頁

下載該robots.txt文件

robots.txt 有幾個常用的寫法;

全部開放或全部禁止

{

User-agent: * //表示站內針地所有搜索引擎開放;

Allow: / //允許索引所有的目錄;

User-agent: * //表示站內針地所有搜索引擎開放;

Disallow: / //禁止索引所有的目錄;

User-agent: * //表示站內針地所有搜索引擎開放;

Disallow: //允許索引所有的目錄;

}

這裏呢,可以把[網站地圖(Sitemap)] 也加進來,引導搜索引擎抓取網站地圖裏的內容。

Sitemap:

Robots.txt 使用方法:

例1. 禁止所有搜索引擎訪問網站的任何部分

Disallow: /

例2. 允許所有的robot訪問

(或者也可以建壹個空文件 "/robots.txt")

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

例3. 僅禁止Baiduspider訪問您的網站

User-agent: Baiduspider

Disallow: /

例4. 僅允許Baiduspider訪問您的網站

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

例5. 禁止spider訪問特定目錄

在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即robot不會訪問這三個目錄。需要註意的是對每壹個目錄必須分開聲明,而不能寫成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例6.要阻止 Googlebot 抓取特定文件類型(例如,.gif)的所有文件

User-agent: Googlebo

tDisallow: /*.gif$

例7.要阻止 Googlebot 抓取所有包含 ? 的網址(具體地說,這種網址以您的域名開頭,後接任意字符串,然後是問號,而後又是任意字符串)

User-agent: Googlebot

Disallow: /*? 更多有才資料: