웹 데이터의 저작권 & 사이트 정책 확인

웹 데이터의 저작권 & 사이트 정책 확인

2018. 7. 19. 23:03ㆍ파이썬

로봇 배제 표준 (robots.txt)

웹 크롤러같은 봇들의 접근을 제어하기 위한 규약.

웹 사이트 최상위 경로에 위치해야 한다.

robots.txt 명령은 지침에 지나지 않으므로, 크롤러 등에 강요할 수 없다.

1. 용도

① 비이지미 파일(웹 페이지)

robots.txt는 크롤링 트래픽 제어 목적으로만 사용되어야 한다.

②이미지 파일

구글 검색 결과에서 이미지 파일이 표시되지 않도록 함.

(이미지로 연결하지 못하도록 하는 것은 아님)

③리소스 파일

2. 형식

User-agent: 제어할 봇의 agent

Allow: 경로

Disallow: 경로

User-agent: *

Disallow: /

User-agent: *

Allow: /

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

PenTest_LAB