Robots.txt 教學說明

Robots.txt是一個提供給搜尋引擎機器人Bot參考的檔案,這個檔案要放在網站的「根目錄」,一般設定好了就很少動它。你可以在你的電腦編輯這個檔案再上傳到網站就可以了,裡面主要是記載網站檢索的容許和限制項目。

這個協定雖然是Google訂的,但是其他搜尋引擎也大都遵循這一個模式,當然你也可以不設Robots.txt讓搜尋引擎自己找(如果沒有什麼不能見人的資料的話)。

我們就來看一下怎麼設這個Robots.txt檔案。

Robots.txt語法

Robots.txt裡面可以有幾個指令可以用:

  • User-agent:指定檢索程式的種類。
  • Allow:允許檢索的項目。
  • Disallow:禁止檢索的項目。
  • $:從後面往前的萬用字元,用來指定檔案類型用的。
  • *:從前面往後的萬用字元,用來指定目錄或檔名用的。
  • Sitemap:用來指定Sitemap的名稱。
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /trackback
Allow: /wp-content/uploads

範例一:拒絕全部的搜尋引擎登錄資料。

User-agent: *
Disallow: /

範例二:拒絕百度搜尋引擎收集資料,但是其他搜尋引擎可以。

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow: 

範例三:拒絕所有搜尋引擎抓取pdf檔案、doc檔案。

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$

(補充*代表萬用字元、$代表結尾符號)

範例四:開放所有搜尋引擎(一)。

User-agent: *
Allow: /

範例五:開放所有搜尋引擎(二)。

User-agent: *
Disallow: 

範例四與五意思是一樣的,代表開放全部搜尋引擎。
簡單來說,如果Disallow為空白,就代表沒有拒絕任何搜尋引擎。

範例六:只允許Googlebot搜尋引擎,其它搜尋引擎不允許。

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

拒絕所有搜尋引擎抓取特定頁面

User-agent: *
Disallow: /page-url-name/

Robots.txt 教學說明
Robots.txt 教學說明

記得排除網站的域名

 

關於作者 多力哥
Robots.txt 教學說明
影像創作攝影師/網頁動畫設計師/系統網路工程師/水草研究生
景文科大畢業後,我成為一名網站動畫設計師,並副修MIS電腦資訊管理。2004年,我開始接觸單眼相機,並在2008年正式成為一名接案攝影師,目前使用Canon系統進行拍攝。2016年,我愛上了美麗的水草缸,這讓我的生活多了另一層次的放鬆。每天在電腦前修圖時,能欣賞紅吱吱、綠油油的水草,彷彿多了一份平靜與愉悅。攝影與水草讓我的生活充滿了藝術與自然的交融。
連絡信箱:[email protected] (歡迎合作提案)
DORIGO IMAGE 攝影工作室:https://dorigo-image.com
如果你喜歡我的內容,可以用行動贊助我一杯咖啡☕,支持我持續創作,也讓這個網站可以繼續營運下去喔!

若您喜歡這篇文章,歡迎按讚分享喔!
0 回復

發表評論

想要留言嗎?
歡迎歡迎!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *