搜索引擎爬去我們頁面的工具叫做搜索引擎機器人,也生動的叫做“蜘蛛”
蜘蛛在爬去網站頁面之前,會先去訪問網站根目錄下面的壹個文件,就是robots.txt。這個文件其實就是給“蜘蛛”的規則,如果沒有這個文件,蜘蛛會認為妳的網站同意全部抓取網頁。
Robots.txr文件是壹個純文本文件,可以告訴蜘蛛哪些頁面可以爬取(收錄),哪些頁面不能爬取。
舉個例子:建立壹個名為robots.txt的文本文件,然後輸入
User-agent: * 星號說明允許所有搜索引擎收錄
Disallow: index.php? 表示不允許收錄以index.php?前綴的鏈接,比如index.php?=865
Disallow: /tmp/ 表示不允許收錄根目錄下的tmp目錄,包括目錄下的文件,比如tmp/232.html