robots文件怎麽設置Robots文件

robots.txt代碼設置什麽以及如何設置它

robots.txt必須放在壹個站點的根目錄下，文件名必須全部小寫。robots.txt文件的格式

用戶代理:定義搜索引擎的類型。

不允許:定義禁止被搜索引擎包括的地址。

允許:定義允許被搜索引擎包含的地址。

常用的搜索引擎類型有:(用戶代理區分大小寫)

谷歌:谷歌機器人

百度:Baiduspider

蜘蛛:雅虎！大聲地吃

Alexaspider:ia_archiver

冰蜘蛛:MSNbot

Altavista蜘蛛:滑板車

Lycosspider:lycos_spider_(霸王龍)

所有網絡蜘蛛:快速網絡爬蟲

墨克托米蜘蛛:咕嘟

搜搜蜘蛛

谷歌Adsense蜘蛛:媒體夥伴-谷歌

蜘蛛:有道機器人

robots.txt文件的寫入

用戶代理:*這裏*代表各種搜索引擎，*是通配符。

Disallow:/admin/這裏的定義是禁止對admin目錄下的目錄進行爬網。

Disallow:/require/這裏的定義是禁止對require目錄下的目錄進行爬網。

Disallow:/ABC/這裏的定義是禁止抓取ABC目錄下的目錄。

不允許:/cgi-bin/*。禁止訪問/cgi-bin/目錄中所有以“.”開頭的文件。htm

follow指令表示搜索機器人可以繼續沿著頁面上的鏈接爬行；

Robots元標記的默認值是index和follow，但inktomi除外，它的默認值是index和nofollow。

請註意:

上述ROBOTS.txt和RobotsMeta標簽限制搜索引擎機器人抓取站點內容。只是需要搜索引擎機器人配合的規則，並不是每個機器人都遵守。

目前看來，絕大多數的搜索引擎機器人都遵守robots.txt的規則然而，目前對RobotsMETA標簽的支持並不多，但正在逐漸增加。比如著名搜索引擎GOOGLE就完全支持，GOOGLE還增加了指令“存檔”，可以限制GOOGLE是否保留網頁快照。

有誰知道如何讓自己的網站快速被收索引擎收錄呢？

1、提交鏈接

要想讓妳新上線的網站能快速被搜索引擎收錄，向搜索引擎提交妳網站的鏈接，只有向搜索引擎提交了鏈接才相當於告訴搜索引擎的新做了壹個網站，妳過來抓取我吧。壹般就是在百度、360、搜狗、等這些搜索引擎提交妳網站的鏈接

2、網站模板

至於網站模板這方面其實也沒什麽特別的方法，其實很多站長的網站都是直接套用其它網站的模板得來的，這裏我說的是妳要是套用其它網站的膜拜最好把網站簡單的修改壹下，不和之前的網站完全壹樣，至少在搜索引擎看來妳的網站跟其它網站不太壹樣。可能壹些企業網站就不會擔心這個問題，上面講的只針對套用模板的網站。

3、網站內容

網站內容這方面是我特別重視的壹點，也是搜索引擎最註重的壹點就是內容的原創，原創內容是搜索引擎非常喜歡的東西，這點相信妳都知道，原創文章的收錄速度是遠遠大於非原創文章的。所以在網站上線的時候壹定要先添加壹點原創的東西，這樣搜索引擎蜘蛛來了就會喜歡妳的網站，從而對妳的網站產生壹個良好的“印象”，這對妳以後網站的發展是十分有利的，也同樣能加快百度對妳的收錄。

4、外部鏈接

新上線的網站，想要百度快速收錄妳的網站，做外部鏈接是必不可少的工作。

5、其它因素

其它方面的話比如：設置robots文件，網站地圖，每天堅持更新網站和發布外鏈

burpsuitev1.5.18怎麽用？

1)Proxy(代理)

代理功能使我們能夠截獲並修改請求.為了攔截請求,並對其進行操作，我們必須通過BurpSuite配置我們的瀏覽器.

壹旦在瀏覽器上設置好之後，就打開BurpSuite，去Proxy項進行Intercept(截斷),需要確保interceptison.

打開alerts標簽,可以看到代理正運行在8080端口.我們可以在Proxy_>options下來修改這個配置.

打開Proxy下的options標簽

在這裏我們可以編輯代理正在監聽的端口,甚至添加壹個新的代理監聽.Burp也有向SSL保護網站提交證書的選項.默認情況下，Burp創建壹個自簽名的證書之後立即安裝."generateCA-signedper-hostcertificates"選項選中之後Burp的證書功能將生成壹個我們能夠鏈接的證書簽署的特定主機.在這裏我們關心的唯壹事情是，當壹個用戶鏈接到壹個SSL保護的網站時，能後減少網站警告提示的次數.

如果我們不選中"listenonloopbackinterfaceonly"選項，意味著BurpProxy可以作為壹個網絡上其它系統的代理。這意味著在同壹網絡中的任何計算機都可以使用BurpProxy功能成為代理,並中繼通過它的流量.

"supportinvisibleproxyingfornon-proxy-awareclient"選項是用於客戶端不知道他們使用的是代理的情況下.這意味著代理設置不是設置在瀏覽器，有時候設置在hosts文件中.在這種情況下，和將代理選項設置在瀏覽器本身所不同的是Burp需要知道它是從壹個非代理客戶端接收流量的."redirecttohost"和"redirecttoport"選項將客戶端重定向到我們在該選項後設置的主機和端口。

同樣,我們可以攔截請求，並根據我們指定的規則返回響應.

這裏有個選項用來修改從響應中接收到的html網頁。我們可以取消隱藏的表單字段,刪除javascript等。還有壹個選項用自定義字符串替換掉尋找到的特定的模式.我們需要用指定正則表達式。Burp將解析請求或者響應以期望能夠尋找到這種模式,將會用自定義的字符串來替換它.

2)Spider(抓取)

BurpSpider用來映射Web應用程序.它會自動抓去Web應用程序的鏈接,提交它發現的所有登陸表單,從而詳細的分析整個應用程序.這些鏈接會傳遞給BurpScanner,進行詳細的掃描.在這種情況下,我們將使用上DVWA(DamnVulnerableWebApplication).只是需要DVMA使用妳的瀏覽器，確保BurpSuite上的inerrceptison,並且得到Brup截取的請求,右鍵單擊攔截的請求，選擇"SendtoSpider"發送給蜘蛛.

接下來會彈出壹個警告彈窗讓我們"additemtoscope(添加項目到作用域)".點擊"Yes".壹個範圍將在我們運行的測試目標上定義好.

我們能夠在sitemap_>target標簽看到壹個url已經添加進作用域.我們也能看到壹些其它的目標已經在目標列表中添加好了.Burp會自動使用代理瀏覽我們定義好的目標網頁.我們可以使用單擊右鍵_>"additemtoscope(添加項目到作用域)"添加任何項目到我們的作用域.

進入Scope標簽,我們能夠看到DVWA應用已經添加到作用域.

接下來我們進入Spider標簽,點擊"options(選項)",我們可以設置各種選項當運行Burp檢測應用程序的時候.我沒有可以讓Burp檢查robotx.txt文件(checkfortherobots.txt)，它會嘗試抓去網站管理員不允許搜索引擎索引的目錄.另外壹個重要的選項是"passivelyspiderasyoubrowse(被動蜘蛛瀏覽)"。基本上BurpSpider可以以被動和主動模式運行,選擇這個就要求BurpSpider保持新的內容和鏈接進行掃描,因為我們瀏覽應用程序的時候使用了Burpproxy。

另外壹個重要的選項是"applicationlogin(應用程序登陸)".壹旦BurpSpider提交壹個登陸表單的時候就開始爬行(抓取).它可以自動提交我們提供給它的證書.我們同樣可以設置admin/password憑證,設置好之後,他們會做為DVWA中的憑證.因此BurpSpider可以自動提交那些信息憑證,並且保持爬行抓取的狀態希望能夠獲得更多的新的信息.妳也可以在thread(線程)項來修改線程數.

BurpSuite使用教程

需要開始爬行抓去Web應用程序,只需要右鍵點擊目標展開目標.然後在展開的dvwa項上單擊鼠標右鍵選擇"Spiderthisbrach"

這樣就會啟動BurpSpider，在Spidercontrol標簽下我們會看到正在做出的請求,我們也可以為BurpSpider自定義壹個範圍.

網站裏的“robots”文件是什麽意思？

搜索引擎爬去我們頁面的工具叫做搜索引擎機器人，也生動的叫做“蜘蛛”

蜘蛛在爬去網站頁面之前，會先去訪問網站根目錄下面的壹個文件，就是robots.txt。這個文件其實就是給“蜘蛛”的規則，如果沒有這個文件，蜘蛛會認為妳的網站同意全部抓取網頁。

Robots.txr文件是壹個純文本文件，可以告訴蜘蛛哪些頁面可以爬取（收錄），哪些頁面不能爬取。

舉個例子：建立壹個名為robots.txt的文本文件，然後輸入User-agent:*星號說明允許所有搜索引擎收錄Disallow:index.php?表示不允許收錄以index.php?前綴的鏈接，比如index.php?=865Disallow:/tmp/表示不允許收錄根目錄下的tmp目錄，包括目錄下的文件，比如tmp/232.html