Robots.txt 教學說明

Robots.txt是一個提供給搜尋引擎機器人Bot參考的檔案，這個檔案要放在網站的「根目錄」，一般設定好了就很少動它。你可以在你的電腦編輯這個檔案再上傳到網站就可以了，裡面主要是記載網站檢索的容許和限制項目。

這個協定雖然是Google訂的，但是其他搜尋引擎也大都遵循這一個模式，當然你也可以不設Robots.txt讓搜尋引擎自己找（如果沒有什麼不能見人的資料的話）。

我們就來看一下怎麼設這個Robots.txt檔案。

Robots.txt語法

Robots.txt裡面可以有幾個指令可以用：

User-agent：指定檢索程式的種類。
Allow：允許檢索的項目。
Disallow：禁止檢索的項目。
$：從後面往前的萬用字元，用來指定檔案類型用的。
*：從前面往後的萬用字元，用來指定目錄或檔名用的。
Sitemap：用來指定Sitemap的名稱。

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /trackback
Allow: /wp-content/uploads

範例一：拒絕全部的搜尋引擎登錄資料。

User-agent: *
Disallow: /

範例二：拒絕百度搜尋引擎收集資料，但是其他搜尋引擎可以。

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow: 

範例三：拒絕所有搜尋引擎抓取pdf檔案、doc檔案。

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$

（補充*代表萬用字元、$代表結尾符號）

範例四：開放所有搜尋引擎（一）。

User-agent: *
Allow: /

範例五：開放所有搜尋引擎（二）。

User-agent: *
Disallow: 

範例四與五意思是一樣的，代表開放全部搜尋引擎。
簡單來說，如果Disallow為空白，就代表沒有拒絕任何搜尋引擎。

範例六：只允許Googlebot搜尋引擎，其它搜尋引擎不允許。

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

拒絕所有搜尋引擎抓取特定頁面

User-agent: *
Disallow: /page-url-name/

記得排除網站的域名

資料參考：

如果你喜歡我的內容，可以用行動贊助我一杯咖啡☕，支持我持續創作，也讓這個網站可以繼續營運下去喔！

若您喜歡這篇文章，歡迎按讚分享喔！

Robots.txt語法

拒絕所有搜尋引擎抓取特定頁面

發表評論

發佈留言取消回覆

近期文章

泰國好好玩系列

訂閱我們的Youtube頻道

熱門文章

Robots.txt語法

拒絕所有搜尋引擎抓取特定頁面

你應該也有興趣的文章:

發表評論

發佈留言 取消回覆

近期文章

標籤

泰國好好玩系列

訂閱我們的Youtube頻道

熱門文章

發佈留言取消回覆