본문 바로가기
Hack/WebHack

3. Robots.txt

by Choraengyi 2017. 2. 1.

#명령어 사용 및 연습시 확실히 허가된 테스트 환경에서 진행해야 하고, 허가받지 않은 곳에서 하여 피해 발생시 온전히 자신의 책임입니다. 


 robots.txt 를 알아보겠습니다.


웹 사이트에 봇이 접근하는 것을 방지하는 것을 로봇 배제 표준이라 하고, 접근 제한에 대한 설명을 기술한 것이 robots.txt 입니다.


*봇은 웹크롤러로도 불리며 WWW 를 탐색하는 프로그램입니다.


 한 마디로 웹 사이트에 제한을 두어 특정 봇이 할 수 있는 것을 제한 합니다. 접근을 막거나, 허락하거나, 특정 디렉터리를 정해 접근을 막는 다던가.. 하지만 설정해 놓아도 접근 할 수 있습니다. 


또한 robots.txt 는 항상 도메인의 root에 위치해야 합니다. (Windows = C:/inetpub/wwwroot/, Linux = /var/www)


 robots.txt 를 확인하려면 간단하게 URL 뒤에 /robots.txt 를 입력하면 됩니다.


제 블로그 robots.txt 입니다.

User-agent: *
Disallow: /owner
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent 부분에는 해당 봇을 쓰면 되는데 와일드 카드 문자'*'를 쓰게 되면 모든 봇이 됩니다. 


그 밑에 Disallow 라고 되어있는데 이는 접근 차단으로 보면 됩니다. Allow는 접근 허락, 위의 구문은 모든 봇에게 /owner, /admin, /oldadmin, /search, /m/search, /m/admin 을 접근 차단 하고 그 외의 디렉터리는 접근 허락을 한다는 뜻 입니다.


 두 번째는 Mediapartners-Google 봇에게 모든 디렉터리를 접근 허락한다는 뜻입니다.


 만약 Disallow: 에 공백이 있으면 이는 해당 봇이 사이트를 크롤링할 수 있다는 뜻 입니다.


검색 엔진에 따라 제한이 다르겠지만, Allow, Disallow 에도 특수 문자를 사용할 수 있는 경우가 종종 있습니다. 해당 봇의 제한 사항을 알고, 활용할 수 도 있습니다.


robots.txt 테스터를 구글에서 지원하고 있습니다.


https://support.google.com/webmasters/answer/6062598?hl=ko


사용법은 해당 사이트에 나와있으니 테스트하면 좋을것 같습니다.


웹 서버에 대해 조금 빨리 이해하려면 이 robots.txt 를 이용하면 좋을 것 같습니다. 봇이 색인 작업을 진행 할때 포함하지 않고, 포함하는 여러 디렉터리, URL 의 정보가 담겨 있기 때문입니다.




728x90
반응형

'Hack > WebHack' 카테고리의 다른 글

4. Nessus  (0) 2017.02.04
2. nmap_2(NSE)  (0) 2017.01.31
1. nmap_1  (0) 2017.01.30
0. DVWA 설치  (0) 2017.01.26

댓글