文章

Robots.txt 教學說明

Robots.txt是一個提供給搜尋引擎機器人Bot參考的檔案,這個檔案要放在網站的「根目錄」,一般設定好了就很少動它。你可以在你的電腦編輯這個檔案再上傳到網站就可以了,裡面主要是記載網站檢索的容許和限制項目。

這個協定雖然是Google訂的,但是其他搜尋引擎也大都遵循這一個模式,當然你也可以不設Robots.txt讓搜尋引擎自己找(如果沒有什麼不能見人的資料的話)。

我們就來看一下怎麼設這個Robots.txt檔案。

Robots.txt語法

Robots.txt裡面可以有幾個指令可以用:

  • User-agent:指定檢索程式的種類。
  • Allow:允許檢索的項目。
  • Disallow:禁止檢索的項目。
  • $:從後面往前的萬用字元,用來指定檔案類型用的。
  • *:從前面往後的萬用字元,用來指定目錄或檔名用的。
  • Sitemap:用來指定Sitemap的名稱。
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /trackback
Allow: /wp-content/uploads

範例一:拒絕全部的搜尋引擎登錄資料。

User-agent: *
Disallow: /

範例二:拒絕百度搜尋引擎收集資料,但是其他搜尋引擎可以。

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow: 

範例三:拒絕所有搜尋引擎抓取pdf檔案、doc檔案。

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$

(補充*代表萬用字元、$代表結尾符號)

範例四:開放所有搜尋引擎(一)。

User-agent: *
Allow: /

範例五:開放所有搜尋引擎(二)。

User-agent: *
Disallow: 

範例四與五意思是一樣的,代表開放全部搜尋引擎。
簡單來說,如果Disallow為空白,就代表沒有拒絕任何搜尋引擎。

範例六:只允許Googlebot搜尋引擎,其它搜尋引擎不允許。

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

資料參考:
The will will web