본 사이트 www.hiseosem.com을 제작하면서 가장 먼저 수행했던 작업 중의 하나가 robots.txt를 작성하여 서버에 올리는 것이었습니다.
지금까지 이 사이트에 적용한 결과 아래와 같이 사이트내의 콘텐츠들이 노출되고 있지 않습니다.
본 사이트의 robots.txt를 보려면 브라우저 주소창에 www.hiseosem.com/robots.txt 를 기입하고 보면 위 #B처럼된 내용이 보일 것입니다. 검색엔진들로 하여금 이 사이트전체를 크롤링하지 말라는 제어문입니다. 그 동안 이 제어문으로 인해 위 #A에서 처럼 구글에서 site:www.hiseosem.com으로 검색하면 그림내 하단과 같은 안내 글이 나오게 됩니다. 메인페이지의 글이라도 나올 수 있지 않을까 생각할 수도 있는데 robots.txt파일은 사이트의 맨 앞(root 디렉토리)에 삽입하면서 사이트내의 모든 콘텐츠를 차단하였으므로 메인의 본문도 노출되지 않습니다. 확인하는 김에 다른 검색엔진들도 들여다 보았습니다. 네이버, 다음은 아직 url조차 색인이 안되어 있고 러시아 검색엔진인 yandex.ru에서 색인된 것으로 파악이 되고 있습니다.
그런데 명심해야할 것은 robots.txt를 작성하여 서버에 올렸다하더라도 악의적인 검색엔진은 이 규약을 따르지 않는 경우가 있으며 이 색인 내용이 다시 구글등 검색엔진이 크롤링함으로써 원치 않은 내용이 노출되기도 하며 사이트의 내용을 다른 디렉토리나 사이트들이 링크를 걸었을 경우 역시 노출되기도 합니다.
즉, robots.txt는 만능이 아니므로 메타 로봇, redirect등 다른 방법과 함께 적용시켜야 하며 무엇보다 사이트구조적으로 보안설정을 잘 해주어야 합니다.
보다 자세한 robots.txt 정보 및 관련 내용들은 아래 사이트에서 확인해 보시기 바랍니다.
-.네이버: 웹문서 수집 및 삭제정책
-.구글: robots.txt 파일을 사용하여 페이지 차단 또는 삭제
아직 사이트가 완전하지 않지만 어느 정도 골격을 갖춘 만큼 robots.txt를 수정하여 빗장을 열고자 합니다.