[Tips] 검색엔진 접근 제한을 위한 /robots.txt 파일

웹서버

투칼론 2017. 10. 5. 22:13

1. 개요

웹 사이트 소유자가 검색 엔진 로봇이 해당 사이트에 대한 접근 제한을 두고자 할때 robots.txt 파일을 이용한다. Robots Exclusion Protocol 이라고 한다.

예를들어, 검색 엔진 로봇이 URL http://www.example.com/index.html을 방문 시에 우선 http://www.example.com/robots.txt 파일을 점검한다.

robots.txt는 아래 표준과 관련이 있다.

robots.txt 파일은 웹 사이트의 Document Root에 존재해야 한다.

2. /robots.txt 예제

사이트 전체를 검색엔진 로봇으로부터 접근을 막는다.

User-agent:*

Disallow:/

사이트 전체를 검색엔진 로봇으로부터 접근을 허용한다.

User-agent:*

Disallow:

사이트 일부(/myfile 디렉터리)를 검색엔진 로봇으로부터 접근을 막는다.

User-agent:*

Disallow:/myfile/

사이트 전체를 특정 검색엔진 로봇(예, BadBot)만 접근을 막는다.

User-agent:BadBot

Disallow:/

사이트 전체를 특정 검색엔진 로봇(예, Google)만 접근을 허용한다.

User-agent:Google

Disallow:

User-agent:*

Disallow:/

[정보] HTTP 구조 - 헤더(Header)와 본문(Body) (0)	2020.03.22
[Tips] Telnet을 이용하여 웹서버 메소드(Method) 테스트하기 (0)	2020.02.02
[정보] HTTP 응답 코드 (0)	2019.10.08
[정보] HTTP/2 이해 (0)	2019.06.11
[Tips] URL redirect와 rewrite 차이 (0)	2019.01.03

IT 이야기

제가 참고하려고 정리한 블로그이기 때문에 다른분들께는 컨텐츠가 불친절할 수 있습니다. 양해부탁드립니다.

OHS, gzip, AWS, JMX, JConsole, 제니퍼5, 압축, 설치, Log Level, install, plugin, thread, 스레드, 제니퍼, access log, 아파치, SSL, 배포, 플러그인, netstat,

IT 이야기