웹 데이터의 저작권 & 사이트 정책 확인

2018. 7. 19. 23:03파이썬

로봇 배제 표준 (robots.txt)

웹 크롤러같은 봇들의 접근을 제어하기 위한 규약.

웹 사이트 최상위 경로에 위치해야 한다.

robots.txt 명령은 지침에 지나지 않으므로, 크롤러 등에 강요할 수 없다.


1. 용도

① 비이지미 파일(웹 페이지)

robots.txt는 크롤링 트래픽 제어 목적으로만 사용되어야 한다. 


②이미지 파일

구글 검색 결과에서 이미지 파일이 표시되지 않도록 함.

(이미지로 연결하지 못하도록 하는 것은 아님)


③리소스 파일


2. 형식

User-agent: 제어할 봇의 agent

Allow: 경로

Disallow: 경로


  • 모든 문서에 대해 접근 차단

User-agent: *

Disallow: /


  • 모든 문서에 대해 접근 허가

User-agent: *

Allow: /


[출처] 나무위키/robots.txt

'파이썬' 카테고리의 다른 글

[Raspberry PI 3] GPIO 사용하기  (0) 2018.09.27
Scrapy 구조  (0) 2018.07.20
BeautifulSoup vs Scrapy  (0) 2018.07.19
웹 크롤링 개발 환경 설정하기  (0) 2018.07.19
웹 환경에 대한 이해  (0) 2018.07.19