네이버에는 외부 검색엔진의 검색로봇(에이전트 또는 크롤러)이 접근하지 못합니다. 이건 너무나 잘 알려진 사실이죠. 한때 엠파스가 열린 검색을 표방하며, 지식인 서비스를 강제 수집해서 서로 날카로운 신경전이 붙었죠.http://kin.naver.com/robots.txt
위 내용에서 보시면 아시겠지만, 네이버 지식인의 경우 로봇의 접근을 전면적으로 막고 있습니다. 당시 엠파스는 수집이 불가능해야 하지만, 네이버의 robots.txt 메시지를 무시하고 수집한 것이죠. 자사의 서비스 안정화라든지, 자산관리 측면에서 어쩌면 네이버의 입장을 충분히 이해할 수 있는 부분이기 도합니다.
오늘 언급할 블로그 역시 마찬가지입니다. 네이버는 블로그에 외부 검색로봇이 접근하는 것을 막고 있습니다. 즉 이 말은 구글, 야후, MS 등 국내외 대부분의 검색로봇이 700~800만 네이버 블로그의 자료에 접근하지 못한다는 의미입니다.
http://blog.naver.com/robots.txt
클릭해 보시면 알 수 있듯이 네이버는 블로그에 다른 검색로봇이 접근하는 것을 막고 있습니다. 복잡한 네이버의 입장을 십분 이해해야 하기 때문에 이것 역시 일방적으로 비판을 하긴 어렵겠습니다. 저는 네이버 내부 정책의 의미를 존중합니다.
애매한 것은 ‘RSS’에 대한 부분입니다.
아시다시피 RSS는 신디케이션(배포) 기술입니다. 네이버 블로그는 RSS를 제공 여부를 선택할 수 있도록 옵션까지 친절하게 제공하고 있습니다. 이 또한 얼마나 사용자를 배려하는 경우입니까. 분명히 네이버 사용자 중에는 RSS로 자신의 글이 공개되는 것을 원하지 않는 분들이 있을 겁니다.
문제는 RSS를 공개한 사용자들에게도 정당한 권리를 돌려주고 있는가는 것이죠. RSS를 공개했다는 뜻은 외부에서 RSS 주소를 통해 블로그 글을 정기적으로 읽을 수 있다는 것을 의미입니다. 해당 구독자가 싫든 좋든 누구나 자유롭게 RSS 주소를 긁어가서 활용할 수 있습니다. 같은 말을 반복하게 되는 셈인데요, RSS는 차세대 웹에서 너무나 당연한 ‘소통의 방식, 소통의 표준’이기 때문입니다.
http://blog.rss.naver.com/robots.txt
그런데 위 주소에서 확인하실 수 있는 것처럼 네이버는 RSS도 외부 검색로봇의 접근을 전면적으로 막고 있습니다. 저만의 의견이 아니라, 모 해외포털 본사 웹검색 담당자, 모 벤처기업 블로그 전문 검색 기술진들에게 두 차례나 확인한 자료입니다. 내부 수집 테스트 결과 네이버 RSS를 대상으로 검색로봇을 돌리면 색인 결과물이 거의 없습니다.
모 업체는 robots.txt를 무시하고 네이버 블로그를 수집할 수밖에 없는 상태라고 합니다. 무시하고 수집한다는 의미는 해당 퍼머넌트 링크에 직접 접근해 파싱하는 것을 말합니다.(올블도 이렇게 한다죠~^^)
그러나 무시하고 수집하는 경우에는 언제든지 네이버에서 로봇의 접근을 IP 단위로 막아버릴지 모르기 때문에 불안정합니다.(네이버 검색 담당자들은 미확인 IP의 접근을 늘 감시하고 있지 않겠습니까?) 물론 RSS가 정상적인 구독자를 대상으로 배포하기 때문에 로봇의 접근은 막는다는 주장을 펼칠 수도 있겠습니다만, 널리 뿌린다는 RSS의 원래 취지와는 상당히 거리가 먼 듯싶습니다.
따라서 다른 건 무조건 몰아붙일 순 없어도, RSS 만큼은 분명히 외부 검색로봇의 검색 대상에 포함될 수 있어야 합니다. 보다 네이버스럽게(?) 말한다면 ‘RSS 비공개 / RSS 구독 공개 / RSS 검색엔진 공개’로 메뉴를 세분화 할 수도 있겠지요. 어떤 방식이든 네이버가 네이버 RSS의 로봇 접근을 전면적으로 막는 것은 정당화될 수 없습니다.
그렇다면 네이버에 강제할 수 있는 방안이 있는가. 현재로서는 네이버 마음대로입니다. 이에 맞서 외부 검색로봇도 robots.txt를 무시하고 네이버에 접근하면 됩니다. 이렇게 되면 업계의 룰이 무너지는 셈이지요.
제 결론은 뭘까요? 저도 답을 못 찾고 있습니다. 그게 제 글의 한계입니다.^^
검색엔진 & 웹2.0 카테고리의 다른 글

안녕하세요. ITViewpoint 스타터이자 공동 에디터 '서명덕 기자' 입니다. 닉네임은 떡이떡이 입니다.
이 곳은 블로그미디어이며, 개인 공간은 http://itviewpoint.thoth.kr/ 을 메인으로 옮겨 갈 생각입니다.
개인적인 목적이라면 콘텐츠 막펌을 전면 허용 http://itviewpoint.com/blog/54971 합니다. 다만 비상업적인 용도에 한하며, 상업적인 용도라면 별도로 문의하세요. RSS http://itviewpoint.com/blog/rss 는 전문 제공합니다.
2007.03.03 18:09:41 (*.78.229.79)
어느 분께서 엠파스에서 네이버 블로그가 검색이 된다고 하셨는데... 이건 올블이나 기타 메타블로그에서 발행된 것들만을 수집하는 것 같던데요;;
엠파스 열린검색도 결국 robots.txt에 막혀 수집을 못하는 듯 합니다...;;
엠파스 열린검색도 결국 robots.txt에 막혀 수집을 못하는 듯 합니다...;;
2007.03.03 20:49:44 (*.234.207.194)
어쩐지..네이버에 블로그가 있을 땐 구글에 전혀 나오질 않더군요.. 그나마 지원하는 RSS도 딸랑 몇줄 나오는 본문의 일부분만 서비스 합니다.
블로그 옮기길 잘 했군요..
블로그 옮기길 잘 했군요..
2007.03.03 22:30:25 (*.60.129.54)
네이버..혼자만 이러면 안좋을꺼 같은데...
나중에 다른 업체들이 연합해서 네이버죽이기라도 하게 되면(그럴가능성이 있을런지는모르지만) 어떻할려구그러는지...
걱정되네요~
나중에 다른 업체들이 연합해서 네이버죽이기라도 하게 되면(그럴가능성이 있을런지는모르지만) 어떻할려구그러는지...
걱정되네요~
2007.03.03 23:47:32 (*.12.166.42)
어쩐지 구글에서 네이버 블로그가 검색이 왜 안되었나 싶더니~이런 이유가 있군요....
이건 네이버의 오만인거 같군요~
이런 마인드로 오래 버틸 수 있을 지 의문입니다.
이건 네이버의 오만인거 같군요~
이런 마인드로 오래 버틸 수 있을 지 의문입니다.
2007.03.04 00:34:59 (*.129.14.28)
그런데 설혹 네이버 블로그나 네이버의 모든 자료를 외부 검색에 공개한다고 해도 심각한 문제가 될만한 컨텐츠가 너무 많아서 이것도 곤란할 것 같고 떡이떡이님 말씀대로 네이버 블로그는 RSS만이라도 옵션을 선택해서 제공하는 것도 좋을 것 같긴 합니다.
2007.03.05 00:33:11 (*.112.110.70)
이렇게되면 정말로 업계의 룰이 다 깨지게 되네요...
결코 네이버가 이 죄명을 쓸지 궁금....
공개하면서 이기는 방법을 찾으면 사람들이 네이버를 더욱 사랑하겠는데...
불펌, 검색로봇막기, 악플발생이 네이버의 약점인 것같습니다.
결코 네이버가 이 죄명을 쓸지 궁금....
공개하면서 이기는 방법을 찾으면 사람들이 네이버를 더욱 사랑하겠는데...
불펌, 검색로봇막기, 악플발생이 네이버의 약점인 것같습니다.

떡이떡이

thoth






robots.txt 를 이용해 폐쇄적인 정책을 펴는 네이버..