반응형
1. 개요
웹 사이트 소유자가 검색 엔진 로봇이 해당 사이트에 대한 접근 제한을 두고자 할때 robots.txt 파일을 이용한다. Robots Exclusion Protocol 이라고 한다.
예를들어, 검색 엔진 로봇이 URL http://www.example.com/index.html을 방문 시에 우선 http://www.example.com/robots.txt 파일을 점검한다.
robots.txt는 아래 표준과 관련이 있다.
- he original 1994 A Standard for Robot Exclusion document.
- a 1997 Internet Draft specification A Method for Web Robots Control
robots.txt 파일은 웹 사이트의 Document Root에 존재해야 한다.
2. /robots.txt 예제
사이트 전체를 검색엔진 로봇으로부터 접근을 막는다.
User-agent:* Disallow:/ |
사이트 전체를 검색엔진 로봇으로부터 접근을 허용한다.
User-agent:* Disallow: |
사이트 일부(/myfile 디렉터리)를 검색엔진 로봇으로부터 접근을 막는다.
User-agent:* Disallow:/myfile/ |
사이트 전체를 특정 검색엔진 로봇(예, BadBot)만 접근을 막는다.
User-agent:BadBot Disallow:/ |
사이트 전체를 특정 검색엔진 로봇(예, Google)만 접근을 허용한다.
User-agent:Google Disallow: User-agent:* Disallow:/ |
'웹서버' 카테고리의 다른 글
[정보] HTTP 구조 - 헤더(Header)와 본문(Body) (0) | 2020.03.22 |
---|---|
[Tips] Telnet을 이용하여 웹서버 메소드(Method) 테스트하기 (0) | 2020.02.02 |
[정보] HTTP 응답 코드 (0) | 2019.10.08 |
[정보] HTTP/2 이해 (0) | 2019.06.11 |
[Tips] URL redirect와 rewrite 차이 (0) | 2019.01.03 |