‘야후 블로그 검색, 6월 11일에 대박 터뜨릴까?’ 라는 제목을 가안을 잡아 둔 블로깅이 있었습니다. 블로깅을 하려다 미뤄 둔 txt 문서파일이 제 노트북에는 널렸는데, 이것도 그 중 하나였지요.
그런데 사실 야후 블로그 검색에 대해 이야기를 하기 전에 플랫폼데이와 Hadoop에 대해 좀 아셔야 할 것 같습니다.
저는 지난 5월 30일 열린 플랫폼 데이 2008(http://www.platformday.com)를 참관한 후, 이날 개인적으로 가장 관심을 끈 야후 Hadoop에 대해 정리할 예정이었습니다만, 회사 일이 몰리면서 흐지부지 됐죠.
참고 / 한재선 박사님의 ‘넥스알’ 공식 블로그
- http://nexr.tistory.com/
| 시간 | 내용 |
|---|---|
| 9:00 ~ 10:00 | 등록 |
| 10:00 ~ 10:10 | 개회사 |
| 10:10 ~ 10:50 | Keynote: 클라우드 컴퓨팅의 성공 요인 (성기준, NHN 기술연구센터 선행기술개발랩 랩장) |
| 10:50 ~ 11:00 | Break |
| 11:00 ~ 11:50 | Hadoop Overview and MapReduce Programming (이준복, KAIST 박사과정) |
| 11:50 ~ 12:30 | Grid Computing at Yahoo! (전희원, Yahoo! Korea Search Eng. 팀 대리) |
| 12:30 ~ 01:30 | Lunch |
| 1:30 ~ 2:10 | Tenth: Daum의 대용량 분산 파일 시스템 소개 (김남희, 다음커뮤니케이션 기반기술팀 팀장) |
| 2:10 ~ 2:20 | Break |
| 2:20 ~ 3:00 | MR.Flow: 분산 프로그래밍 서비스와 가상화 기반 Hadoop (한재선, NexR 대표이사) |
| 3:00 ~ 3:10 | Break |
| 3:10 ~ 3:50 | 광우병과 대용량 데이터 처리 플랫폼 (홍창범, 국립보건연구원 기술연구원) |
| 3:50 ~ 4:10 | Coffee Break |
| 4:10 ~ 4:50 | Neptune: 대용량 분산 데이터 저장소 (김형준, NHN 분산시스템TF 수석) |
| 4:50 ~ 5:00 | Break |
| 5:00 ~ 5:40 | 저비용 대규모 서비스 기반 분산파일시스템 기술 (진기성, ETRI 저장시스템연구팀 선임연구원) |
| 5:40 ~ 6:10 | Panel Discussion: 플랫폼의 미래와 한국 서비스에 적합한 플랫폼 |
관심이 높았던 만큼, 이날 행사 일정에 대해서는 이미 http://itviewpoint.com/59033 를 통해 자세히 소개한 바 있습니다.
이날 행사에서는 분산 컴퓨팅 기술 중 대표 사례인 Hadoop 플랫폼에 대한 소개와 개발현황 발표가 있었습니다. 그런데 Hadoop는 야후가 가장 잘 활용하는 사례라고 알려져 있지요.
야후 본사 하두프 블로그
- http://developer.yahoo.com/blogs/hadoop/
참고로, 이날 행사에서는 한국 하두프 커뮤니티에 대한 언급도 있었는데, 최근(약 몇주 전) 구글에 관련 모임이 개설됐습니다.
한국 Hadoop Community
- http://groups.google.com/group/hadoop-community?hl=ko
딱히 비공개 조직은 아닌지라, 7월 17일 목요일 저녁에 첫 모임이 있다는 정도까지만 소개해도 되겠지요. 저는 나가지 못할 것 같습니다만, 관심은 늘 있습니다.^^

다시 Hadoop 이야기로 돌아와 봅니다. 잘 아시다시피, 야후는 하두프의 가장 큰 스폰서입니다. 가장 활용 잘하는 곳도 야후라고 앞서 말씀 드렸습니다.
이날 Hadoop 기반의 그리드 컴퓨팅을 소개하기 위해 야후 코리아의 고감자님(http://www.freesearch.pe.kr)이 나서 주셨습니다.
이날 행사에서 인상 깊었던 건, 역시 회사 소속원으로서 뭔가 이야기를 할 때 매우 조심할 수 밖에 없다는 점. “야후 보안 문제가 있어서 검토를 매우 많이 받았다” “외국 개발자에게 문의를 많이 했고, 공개 수위를 많이 조절한 것이다” “질문을 하더라도 답변을 못할 수도 있으니 서운하게 생각하지는 말라” 등을 여러 차례 강조했습니다. 물론 나름대로의 고감자님 유머였겠지만, 혹시라도 외부로 유출되지 않아야 할 정보가 흘러 나가서는 안되는 상황이었으니 110% 이해합니다.^^
잘 아시다시피 Hadoop 기반의 야후 그리드컴퓨팅 환경은 대직원 서비스입니다. 사용자는 야후 전직원이고, 매일 흥미로운 작업 일어나고 있다고 하네요. 이해하기 쉽지 않은 초보자라면, 거대한 초고성능 컴퓨터를 각 야후 개발자들이 나눠 쓴다고 생각하시면 됩니다.^^
고감자님 설명에 따르면 야후 내부 데이터 분석 작업 위주로 많이 사용되고 있으며, 그런 데이터들이 매일 올라오고 있다고 합니다. 다만 하두프로 확장성을 확보해서 성능이 높아진 것인지, 아니면 하두프를 선택했기 때문에 그 자체로 성능이 우수한 것인지는 명확하진 않습니다. 중요한 건 야후가 Hadoop를 매우 잘 활용하고 있다는 점입니다. “사실 하두프도 오버헤드가 많다”는 말도 잊지 않으셨습니다.
고감자님 왈, “야후가 저를 잡아두고 있는 힘은 플랫폼 환경과 개발 소스 등이다. 입사하기 전에는 잘 몰랐는데 이것이 야후가 날 잡고 있는 힘이다”고 설명하기도 했습니다. 야후가 이 정도이니 뛰어난 인재가 많은 구글이나 MS도 엄청난 매력을 가지고 있겠지요? 그래서 3개 회사로 사람들이 모이는 거겠죠.
Video: Yahoo Korea Hadoop Introduction
이날 고감자님의 발표 요점은 아래와 같이 귀결됩니다. 개발자들의 생각을 바꿔야 한다는 지적이네요. 내공이 돋보입니다.^^
“이 세상은 데이터가 넘쳐나고 있다. 싼 컴퓨터들을 묶어서 그리드컴퓨팅 하는 것이 바로 그것이다. 이제 이것이 전문가에서 개발자 영역까지 넘어왔다. 이해하기 쉽고 접근하기 쉬운 단계로 넘어오고 있다. 개발 속도를 높이기 위해 프로그램과 프롤그래밍의 ‘패러다임’을 바꿀 필요가 있다. 프로그래밍의 난제를 해결 방법을 이런 쪽으로 바꿀 필요가 있지 않나 생각한다”
<참고> 전문가의 시대, 대용량 데이터 분석의 시대 / 고감자님
http://www.freesearch.pe.kr/1001
---------------------
그런데 갑자기 오늘 이 얘기를 제가 왜 하는가 궁금하셨죠? 벌써 한 달이 넘게 지난 행사인데 말이죠.
야후코리아가 이 그리드 컴퓨팅을 이용해 작업을 한 결과가 오늘 언론에 공개됐습니다. 오픈은 6월 말인 것으로 추정됩니다.(날짜가 가물...) 사실 6월 11일 정도에 오픈할 예정이라고 해서 그 동안 입이 좀 근질거리긴 했는데 거의 한달 가까이 발표가 늦어졌네요.
바로 블로그 검색(블로그 랭킹)입니다. 검색은 웹문서의 랭킹 알고리즘 그 자체이니 사실상 같은 말입니다.
야후가 블로거들의 랭킹을 100% 자동으로 매기기 위해 활용한 기술이 웹맵(Webmap)입니다. 여러 정보를 통해 웹 페이지의 퀄리티를 측정하는 기술로서, 인기도, 정확도, 최신도 분석은 물론, 문서간의 상호 연결 관계 분석을 기반으로 합니다. 기계가 하니 왜곡이나 어뷰징, 특정 주제에 편중되는 상황도 제거할 수 있다는 점이 장점이겠지요. 알고리즘에 의한 랭킹 그 자체입니다.
당시 플랫폼 데이에서 고감자님 설명인 즉, “야후 코리아 블로그 웹맵은 블로그 링크 피처를 추출하는 것으로, hadoop를 통해 데이터를 분산하는 것만으로도 처리시간을 단축할 수 있다”고 말하시더군요. 단순한 글 개수나 댓글 반응, 방문객 등을 넘어 새로운 인기도 기준을 제시하겠다는 의지를 가지고 있습니다.
이를 통해 한글로 운영되는 400만여개 블로그들의 순수한 Machine Learning Ranking이 완성되게 됩니다. 6월 현재 제가 1위입니다. <전체 3,933,391명 중, 2008.06.19 집계>

고감자님이 6월 말 포스팅한 글을 한번 더 살펴보겠습니다.
<중략>공개된 1000등까지의 블로그를 차근차근 둘러보다 보면 미처 예전에 발견하지 못한, 그러니까 블로그 메타 사이트나 포털에서 기존에 눈에 띄지 않았던 양질의 블로그가 꽤 많다는 것이다. 아마도 이들을 둘러보는 것만으로도 사용자에게는 큰 재미가 되지 않을까 한다.
기술적으로는 국내에서는 한번도 시도되었다고 알려지지 않은 Machine Learning Ranking을 적용했다는데 정말 큰 의미가 있지 않을까 한다. <후략>
야후 코리아 블로거 랭킹
http://www.freesearch.pe.kr/989
야후코리아 블로거 랭킹 소개
http://www.gruter.co.kr/218
이런 기술적인 지식을 이해하고 보면 14일(오늘) 발표된 야후 코리아 공식 보도자료가 이해하기 쉬워집니다. 기계가 분석한 400만 블로거들의 검색 랭킹과 검색결과, 쉽지 않은 작업임에는 분명하겠지요? 주간, 일간으로 랭킹 갱신 빈도를 높여 간다고 하니, 점점 Webmap이 바빠지겠습니다.^^

황금배지 빛나는 인기 블로거를 만나자!
야후!, 신개념 블로그 검색 서비스 시작
- ‘블로그명’ 검색하면 해당 블로그 정보 한 눈에 파악 -
- 블로그 랭킹 서비스로 인기 블로거 검색 편리 –
- 중복문서 표시로 저작권 보호 및 양질의 콘텐츠 생산 장려 -
보도자료 제공일 7월 14일 (월요일) – 모든 블로거가 존중 받는 세상, 건전한 정보 소통의 장이 열렸다.
야후! 코리아(총괄사장 김제임스우, www.yahoo.co.kr)는 중복문서 표시로 원본 게시물의 보호성을 높이는 한편 블로거 중심의 기능을 대폭 업그레이드 한 신개념 블로그 검색 서비스로 개편했다고 밝혔다.
작년 8월부터 개방화 전략의 일환으로 국내 주요 포털 및 설치형/독립 블로그를 총 망라한 오픈 블로그 검색 서비스를 제공해 온 야후! 코리아는 이번 개편이 블로그 활성화의 기폭제가 될 것으로 기대된다고 밝혔다.
새롭게 추가된 ‘블로그명’ 검색 기능은 방문하고 싶은 블로그명/닉네임/URL 등을 검색창에 입력하면 블로그 바로가기는 물론, 블로그 내 전체 글 수와 원본 글 수를 비롯해 해당 블로그를 참조한(In-link) 다른 블로그의 수와 최근 게시글 등 해당 블로그에 관한 종합 정보를 한 눈에 파악할 수 있다.
특히 활성화 된 약 400만개의 블로그 지표와 메타 정보를 기반으로 웹 페이지의 퀄리티를 측정하는 야후! 만의 웹맵 기술을 통해 블로그 랭킹 서비스를 새롭게 선보인 것이 눈에 띈다. 사용자는 검색을 통해 해당 블로그의 랭킹까지 동시에 확인하게 됨으로써 인기 블로거를 보다 쉽게 만날 수 있게 됐다. 순위는 황금빛 랭킹 배지에 보여지며, 랭킹 배지 소스를 복사해 자신의 블로그에 삽입할 수 있도록 지원하고 있다. 랭킹은 한 달 단위로 업데이트 되며, 향후 주간/일간 단위로 주기를 단축시켜 나갈 계획이다.
또한 이번에 향상된 블로그 검색 서비스는 기존 웹 상에서 떠도는 중복문서를 표시함으로써 원작자의 권리를 보호하고 양질의 콘텐츠 생산을 장려하는데 보다 중점을 둔 것이 특징이다. 야후! 검색 DB에 포함된 모든 블로그 글 중 중복 문서 필터링 기술을 통해 최초 게시자의 원문을 최우선적으로 보여주고, 중복된 문서는 원본 글 하단에 스크랩해 간 블로그 리스트와 함께 제공하고 있다.
뿐만 아니라 야후! 블로그 검색 데이터에 포함되지 않아 원본글이 누락되었을 경우, 사용자가 <원본글 등록 요청>을 하거나, 본인 의사에 따라 <블로그 검색 추가/삭제>를 자유롭게 할 수 있는 창구도 마련해 놓았다. 게다가 올 초부터 시범적으로 ‘블로그명’ 검색 시 검색 결과 최상단에 ‘바로가기’ 링크를 제공했던 서비스와 같이 누구나 쉽게 본인의 <블로그 바로가기> 신청을 할 수 있도록 해 사용자의 편의성을 높였다.
야후! 코리아 검색팀 김봉균 부문장은 “이번 블로그 검색 서비스는 우수한 콘텐츠 생산을 장려하고 블로거 중심의 기능을 지원하는 통합 블로그 서비스”라고 설명하며 “컨텐츠 생산자인 블로거는 물론, 일반 사용자들에게 정보 습득 니즈의 양과 질을 동시 만족시킬 수 있는 건전한 정보 소통의 장이 되길 바란다” 라고 말했다.
한편 야후! 는 오는 16일부터 8월 15일까지 한 달간 블로그 검색 개편 기념 이벤트를 진행한다. 자신의 블로그 랭킹을 검색한 후 자신의 블로그에 순위 배지를 달거나, 캡쳐해 게재하는 사용자 중 추첨을 통해 캐논 EOS-450D, 닌텐도 Wii, 스타벅스 커피 등 푸짐한 상품을 나눠준다. 또 ‘나와 비슷한 닉네임, 제목의 블로그를 찾아라’, ‘Top 블로거를 찾아라’, ‘중복문서 5개 이상인 원본글을 찾아라’ 등 다양한 미션을 수행하는 참여자 중에서도 추첨을 통해 닌텐도 Wii, 커피교환권 등을 지급한다.<끝>
아래는 플랫폼 데이때 발표된 슬라이드 자료 몇장입니다. 이냘 고감자님의 그리드컴퓨팅 관련 발표 슬라이드 원본은 http://www.platformday.com/files/grid-yahoo.pdf 를 통해 내려받으실 수 있습니다.





안녕하세요. 블로거 '떡이떡이' 입니다.
여기 오시는 분들 모두 사랑해요~ 인터넷 생활을 더 즐겁게!
블로깅 직접하기(오픈블로그)는 http://itviewpoint.com/board/51280 를 참고하세요. (자신이 직접 쓰신 좋은 글이나 널리 알리고 싶은 정보나 소식을 쓰시면 됩니다)
Recent Comments