site:命令是用來知道某個站點中有自己需要找的東西,就可以把搜索範圍限定在這個站點中,提高查詢效率。
使用的方式,是在查詢內容的後面,加上“site:站點域名”。例如,可以這樣查詢某某網站:site:某某.com.
site命令語法格式有兩種:
1、site:域名 關鍵詞
2、關鍵詞 site:域名
site:後面帶不帶www結果可能是不壹樣的,因為有些域名還包括二級域名,如:site:www.某某.com和site:某某.com,搜索結果就不壹樣,site:和站點名之間,不要帶空格。
擴展資料網絡爬蟲為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從壹個或若幹初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的壹定停止條件。
聚焦爬蟲的工作流程較為復雜,需要根據壹定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。
相對於通用網絡爬蟲,聚焦爬蟲還需要解決三個主要問題:
(1) 對抓取目標的描述或定義;
(2) 對網頁或數據的分析與過濾;
(3) 對URL的搜索策略。
百度百科-site命令
百度百科-網絡爬蟲
百度百科-SITE
百度百科-搜索引擎收錄