[알아봅시다] 빅데이터 분석의 선봉장 `하둡`

대규모 데이터 빠르게 분산 처리 저장
클라우드와 연계해 처리 속도 확 줄여
130년 분량 신문기사 24시간만에 뚝딱


우리가 살고 있는 세상은 데이터 폭증의 시대라고 합니다. 현재 전세계적으로 인터넷 사용자들은 대략 20억명, 보급된 모바일 폰은 46억대에 달하고 있습니다. 매일 트위터로 생성되는 데이터는 7테라바이트, 신규로 업로드 되는 페이스북 글이 10테라바이트라고 합니다. 이를 포함해 모바일 기기, 온라인, 소셜 네트워크를 통해 생성하는 데이터는 매일 2.5퀸틸리언(100경, 100만의 6제곱)바이트에 달하며, 게다가 데이터 양은 물론이고 증가폭은 날이 갈수록 치솟고 있습니다.

이로 인해 생성된 데이터들을 어떻게 잘 다루고 관리할 것인가가 화두로 떠오르고 있습니다.

과거 데이터들은 텍스트가 위주인 정형 데이터였습니다. 예를 들어 우리가 은행에서 예금을 새로 신청할 때 신청 양식에 맞춰 이름, 연락처, 주소 등의 정보를 넣고, 거래가 진행되면 이는 날짜, 금액 등 양식화돼 저장되게 됩니다. 이렇게 일정한 형식을 갖추고 있는 데이터가 바로 정형데이터로, 상대적으로 다루기 쉽고, 분석과 검색, 정보의 처리와 활용이 어렵지 않습니다. 하지만 최근의 데이터는 이미지, 영상, 로그파일 등과 같이 어느 하나로 정렬되지 않는 비정형데이터들입니다. 이 막대한 양의 비정형 데이터를 어떻게 저장하고, 여기서 어떻게 유용한 정보를 뽑아낼 수 있을까 라는 요구에서 하둡(Hadoop)이 탄생했습니다.

하둡은 대규모 데이터의 분산 처리를 위한 오픈 소스 프레임워크로, 2005년 더그 커팅과 마이크 카파렐라가 개발했습니다. 하둡은 기존 RDBMS(Relational Database Management System) 방식으로는 처리가 어려운 데이터를 다루기 위해 데이터를 일정한 크기의 N개로 분할해 여러 컴퓨터에서 이들을 병렬로 처리한 다음 그 결과를 취합해 사용자에게 전달합니다.

하둡의 구성 요소 가운데 핵심 구성은 바로 저장과 처리라고 할 수 있습니다. HDFS(Hadoop Distributed File System)를 통해 분산 저장하고, 맵 리듀스(Map Reduce)를 통해 분산 처리하게 됩니다. 이러한 분산 처리, 분산 저장이 바로 하둡의 가장 큰 특성인데, 하둡은 여러 개의 컴퓨터를 마치 하나인 것처럼 묶어 주는 기술을 통해 저장 공간과 처리 능력을 늘려줍니다.

이렇게 분산 컴퓨팅 방식인 클라우드 컴퓨팅과의 연계를 통해 하둡은 상상을 초월하는 데이터 분석 성능을 제공해줄 수 있습니다. 이전까지는 시간이 어마어마하게 걸려 결과를 얻기 어려웠던 것들이 하둡으로 인해 데이터를 빠르게 처리하고 분석할 수 있게 됐습니다. 예를 들어 2008년 뉴욕타임스는 1851년부터 1980년 12월까지 130년 분량의 신문기사 1100만 매를 `아마존 S3'에 저장하고, 하둡을 이용해 약 4테라바이트 크기의 데이터를 24시간 만에 변환했다고 합니다. 이는 당시 일반 서버로 대략 14년이 걸리는 어마어마한 작업량이었습니다.

현재 하둡은 사실상 대용량 데이터 처리 플랫폼의 표준으로 통하며, 대규모 글로벌 서비스를 제공하는 야후 등 인터넷 서비스 기업과 페이스북, 트위터와 같은 SNS(Social Networking Service) 기업뿐만 아니라 비즈니스 인텔리전스, 바이오인포매틱스, 과학 계산 등 보다 복잡하고 전문적인 분야로 그 응용분야가 점차 확대되고 있습니다. 하둡을 가장 초기에 도입한 야후는 이미 5만개의 노드로 구성된 하둡 네트워크를 설치했으며, 페이스북은 1만개 이상의 노드로 구성된 시스템을 갖추고 있다고 합니다.

하둡을 통한 효과적인 응용 사례도 나타나고 있습니다. 전세계 7억명 이상이 방문하는 야후 사이트에 콘텐츠를 보고 검색하는 방대한 데이터를 하둡으로 분석해 유의미한 데이터를 뽑아내고 이를 다시 사용자 혜택으로 돌려주고 있습니다. 예를 들어 페이지 뷰와 클릭 현황 데이터(click stream data)를 분석한 자료로 개인화된 사이트를 제공하거나 광고 효율을 높이고, 메일의 메타 데이터를 분석해 복잡한 스팸 패턴을 파악한 다음 안티 스팸 기능을 높여주는 식입니다.

현재 아마존, IBM, 마이크로소프트 등이 하둡 기술에 주목해 지원을 확대하고 있습니다. 하둡은 이제 걸음마를 시작한 기술로, 앞으로 더욱 발전 가능성이 기대되는 분야라고 할 수 있겠습니다.

정용철기자 jungyc@

자료제공=야후

◇ 사진설명 : 캘리포니아주 서니베일에 있는 야후 본사 데이터센터 내 하둡이 실행 중인 머신 클러스터 모습.

+ Recent posts