Robots.txt 教學說明
Robots.txt是一個提供給搜尋引擎機器人Bot參考的檔案,這個檔案要放在網站的「根目錄」,一般設定好了就很少動它。你可以在你的電腦編輯這個檔案再上傳到網站就可以了,裡面主要是記載網站檢索的容許和限制項目。
這個協定雖然是Google訂的,但是其他搜尋引擎也大都遵循這一個模式,當然你也可以不設Robots.txt讓搜尋引擎自己找(如果沒有什麼不能見人的資料的話)。
我們就來看一下怎麼設這個Robots.txt檔案。
Robots.txt語法
Robots.txt裡面可以有幾個指令可以用:
- User-agent:指定檢索程式的種類。
- Allow:允許檢索的項目。
- Disallow:禁止檢索的項目。
- $:從後面往前的萬用字元,用來指定檔案類型用的。
- *:從前面往後的萬用字元,用來指定目錄或檔名用的。
- Sitemap:用來指定Sitemap的名稱。
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /trackback Allow: /wp-content/uploads 範例一:拒絕全部的搜尋引擎登錄資料。 User-agent: * Disallow: / 範例二:拒絕百度搜尋引擎收集資料,但是其他搜尋引擎可以。 User-agent: Baiduspider Disallow: / User-agent: * Disallow: 範例三:拒絕所有搜尋引擎抓取pdf檔案、doc檔案。 User-agent: * Disallow: /*.pdf$ Disallow: /*.doc$ (補充*代表萬用字元、$代表結尾符號) 範例四:開放所有搜尋引擎(一)。 User-agent: * Allow: / 範例五:開放所有搜尋引擎(二)。 User-agent: * Disallow: 範例四與五意思是一樣的,代表開放全部搜尋引擎。 簡單來說,如果Disallow為空白,就代表沒有拒絕任何搜尋引擎。 範例六:只允許Googlebot搜尋引擎,其它搜尋引擎不允許。 User-agent: Googlebot Allow: / User-agent: * Disallow: /
拒絕所有搜尋引擎抓取特定頁面
User-agent: *
Disallow: /page-url-name/
記得排除網站的域名
發表評論
想要留言嗎?歡迎歡迎!