robots.txt是搜索引擎中訪問網站的時候要查看的第壹個文件。Robots.txt文件告訴蜘蛛程序在服務器上什麽文件是可以被查看的。robots.txt 是壹個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內容。
當壹個搜索機器人robots(有的叫搜索蜘蛛或者爬蟲)訪問壹個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索引擎爬蟲就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,那麽搜索引擎爬蟲就沿著鏈接抓取。
robots.txt 文件限制抓取網絡的搜索引擎爬蟲對您的網站的訪問。這些搜索引擎爬蟲是自動的,它們在訪問任意網站的網頁之前,都會查看是否存在阻止它們訪問特定網頁的 robots.txt 文件。(雖然某些搜索引擎爬蟲可能會以不同的方式解釋 robots.txt 文件中的指令,但所有正規的搜索引擎爬蟲都會遵循這些指令。然而,robots.txt 不是強制執行的,壹些垃圾信息發送者和其他麻煩制造者可能會忽略它。因此,我們建議對機密信息采用密碼保護。)
只有當您的網站中包含您不想讓搜索引擎編入索引的內容時,才需要使用 robots.txt 文件。如果您希望搜索引擎將網站上的所有內容編入索引,則不需要 robots.txt 文件(甚至連空的 robots.txt 文件也不需要)。
為了能使用 robots.txt 文件,您必須要有對您網站的根目錄的訪問權限(如果您不能確定是否有該權限,請與您的網絡托管商核實)。如果您沒有對網站的根目錄的訪問權限,可以使用robots元標記來限制訪問。