웹 데이터의 저작권 & 사이트 정책 확인
2018. 7. 19. 23:03ㆍ파이썬
로봇 배제 표준 (robots.txt)
웹 크롤러같은 봇들의 접근을 제어하기 위한 규약.
웹 사이트 최상위 경로에 위치해야 한다.
robots.txt 명령은 지침에 지나지 않으므로, 크롤러 등에 강요할 수 없다.
1. 용도
① 비이지미 파일(웹 페이지)
robots.txt는 크롤링 트래픽 제어 목적으로만 사용되어야 한다.
②이미지 파일
구글 검색 결과에서 이미지 파일이 표시되지 않도록 함.
(이미지로 연결하지 못하도록 하는 것은 아님)
③리소스 파일
2. 형식
User-agent: 제어할 봇의 agent
Allow: 경로
Disallow: 경로
- 모든 문서에 대해 접근 차단
User-agent: *
Disallow: /
- 모든 문서에 대해 접근 허가
User-agent: *
Allow: /
[출처] 나무위키/robots.txt
'파이썬' 카테고리의 다른 글
[Raspberry PI 3] GPIO 사용하기 (0) | 2018.09.27 |
---|---|
Scrapy 구조 (0) | 2018.07.20 |
BeautifulSoup vs Scrapy (0) | 2018.07.19 |
웹 크롤링 개발 환경 설정하기 (0) | 2018.07.19 |
웹 환경에 대한 이해 (0) | 2018.07.19 |