n_c600.gif네이버에는 외부 검색엔진의 검색로봇(에이전트 또는 크롤러)이 접근하지 못합니다. 이건 너무나 잘 알려진 사실이죠. 한때 엠파스가 열린 검색을 표방하며, 지식인 서비스를 강제 수집해서 서로 날카로운 신경전이 붙었죠.

http://kin.naver.com/robots.txt

위 내용에서 보시면 아시겠지만, 네이버 지식인의 경우 로봇의 접근을 전면적으로 막고 있습니다. 당시 엠파스는 수집이 불가능해야 하지만, 네이버의 robots.txt 메시지를 무시하고 수집한 것이죠. 자사의 서비스 안정화라든지, 자산관리 측면에서 어쩌면 네이버의 입장을 충분히 이해할 수 있는 부분이기 도합니다.

오늘 언급할 블로그 역시 마찬가지입니다. 네이버는 블로그에 외부 검색로봇이 접근하는 것을 막고 있습니다. 즉 이 말은 구글, 야후, MS 등 국내외 대부분의 검색로봇이 700~800만 네이버 블로그의 자료에 접근하지 못한다는 의미입니다.

http://blog.naver.com/robots.txt

클릭해 보시면 알 수 있듯이 네이버는 블로그에 다른 검색로봇이 접근하는 것을 막고 있습니다. 복잡한 네이버의 입장을 십분 이해해야 하기 때문에 이것 역시 일방적으로 비판을 하긴 어렵겠습니다. 저는 네이버 내부 정책의 의미를 존중합니다.

애매한 것은 ‘RSS’에 대한 부분입니다.

아시다시피 RSS는 신디케이션(배포) 기술입니다. 네이버 블로그는 RSS를 제공 여부를 선택할 수 있도록 옵션까지 친절하게 제공하고 있습니다. 이 또한 얼마나 사용자를 배려하는 경우입니까. 분명히 네이버 사용자 중에는 RSS로 자신의 글이 공개되는 것을 원하지 않는 분들이 있을 겁니다.

문제는 RSS를 공개한 사용자들에게도 정당한 권리를 돌려주고 있는가는 것이죠. RSS를 공개했다는 뜻은 외부에서 RSS 주소를 통해 블로그 글을 정기적으로 읽을 수 있다는 것을 의미입니다. 해당 구독자가 싫든 좋든 누구나 자유롭게 RSS 주소를 긁어가서 활용할 수 있습니다. 같은 말을 반복하게 되는 셈인데요, RSS는 차세대 웹에서 너무나 당연한 ‘소통의 방식, 소통의 표준’이기 때문입니다.

http://blog.rss.naver.com/robots.txt

그런데 위 주소에서 확인하실 수 있는 것처럼 네이버는 RSS도 외부 검색로봇의 접근을 전면적으로 막고 있습니다. 저만의 의견이 아니라, 모 해외포털 본사 웹검색 담당자, 모 벤처기업 블로그 전문 검색 기술진들에게 두 차례나 확인한 자료입니다. 내부 수집 테스트 결과 네이버 RSS를 대상으로 검색로봇을 돌리면 색인 결과물이 거의 없습니다.

모 업체는 robots.txt를 무시하고 네이버 블로그를 수집할 수밖에 없는 상태라고 합니다. 무시하고 수집한다는 의미는 해당 퍼머넌트 링크에 직접 접근해 파싱하는 것을 말합니다.(올블도 이렇게 한다죠~^^)

그러나 무시하고 수집하는 경우에는 언제든지 네이버에서 로봇의 접근을 IP 단위로 막아버릴지 모르기 때문에 불안정합니다.(네이버 검색 담당자들은 미확인 IP의 접근을 늘 감시하고 있지 않겠습니까?) 물론 RSS가 정상적인 구독자를 대상으로 배포하기 때문에 로봇의 접근은 막는다는 주장을 펼칠 수도 있겠습니다만, 널리 뿌린다는 RSS의 원래 취지와는 상당히 거리가 먼 듯싶습니다.

따라서 다른 건 무조건 몰아붙일 순 없어도, RSS 만큼은 분명히 외부 검색로봇의 검색 대상에 포함될 수 있어야 합니다. 보다 네이버스럽게(?) 말한다면 ‘RSS 비공개 / RSS 구독 공개 / RSS 검색엔진 공개’로 메뉴를 세분화 할 수도 있겠지요. 어떤 방식이든 네이버가 네이버 RSS의 로봇 접근을 전면적으로 막는 것은 정당화될 수 없습니다.

그렇다면 네이버에 강제할 수 있는 방안이 있는가. 현재로서는 네이버 마음대로입니다. 이에 맞서 외부 검색로봇도 robots.txt를 무시하고 네이버에 접근하면 됩니다. 이렇게 되면 업계의 룰이 무너지는 셈이지요.

제 결론은 뭘까요? 저도 답을 못 찾고 있습니다. 그게 제 글의 한계입니다.^^
Share
이 글과 가장 관련이 있는 글을 자동으로 추천해 드립니다
profile

안녕하세요. ITViewpoint 스타터이자 공동 에디터 '서명덕 기자' 입니다. 닉네임은 떡이떡이 입니다.

 

이 곳은 블로그미디어이며, 개인 공간은 http://itviewpoint.thoth.kr/ 을 메인으로 옮겨 갈 생각입니다.


개인적인 목적이라면 콘텐츠 막펌을 전면 허용 http://itviewpoint.com/blog/54971 합니다. 다만 비상업적인 용도에 한하며, 상업적인 용도라면 별도로 문의하세요. RSS http://itviewpoint.com/blog/rss 는 전문 제공합니다.