웹서버

[Tips] 검색엔진 접근 제한을 위한 /robots.txt 파일

투칼론 2017. 10. 5. 22:13
반응형

1. 개요

웹 사이트 소유자가 검색 엔진 로봇이 해당 사이트에 대한 접근 제한을 두고자 할때 robots.txt 파일을 이용한다. Robots Exclusion Protocol 이라고 한다.

예를들어, 검색 엔진 로봇이 URL http://www.example.com/index.html을 방문 시에 우선 http://www.example.com/robots.txt 파일을 점검한다.

robots.txt는 아래 표준과 관련이 있다.


robots.txt 파일은 웹 사이트의 Document Root에 존재해야 한다.

 

2. /robots.txt 예제

사이트 전체를 검색엔진 로봇으로부터 접근을 막는다.

 User-agent:*

 Disallow:/


사이트 전체를 검색엔진 로봇으로부터 접근을 허용한다. 

 User-agent:*

 Disallow:


사이트 일부(/myfile 디렉터리)를 검색엔진 로봇으로부터 접근을 막는다.

 User-agent:*

 Disallow:/myfile/


사이트 전체를 특정 검색엔진 로봇(예, BadBot)만 접근을 막는다.

 User-agent:BadBot

 Disallow:/


사이트 전체를 특정 검색엔진 로봇(예, Google)만 접근을 허용한다.

 User-agent:Google

 Disallow:

 User-agent:*

 Disallow:/