시맨틱 웹 : 기술을 넘어 서비스 플랫폼으로

2013. 1. 15. 19:08

시맨틱 웹 : 기술을 넘어 서비스 플랫폼으로

많은 관심과 기대를 받았던 시맨틱 웹, 과연 웹 환경의 변화와 산업적 가치를 창출할 수 있을 것인가? 소위 웹 2.0이라는 패러다임의 다음은 무엇이 될 것인가? 웹 3.0? 시맨틱 웹? 이제 우리는 시맨틱 웹을 보는 시각을 산업 인프라 기술로, 보다 발전된 데이터의 웹으로, 다양한 플랫폼의 혁신적 서비스 인프라로 인식해야 할 것이다. 눈에 보이지 않는 시맨틱 웹을 볼 줄 아는 통찰과 조급하지 않은 인내심, 발전 단계를 무시하지 않는 원칙적 접근이 한국에서의 시맨틱 웹 산업을 발전시킬 근간이 될 것이다.

IT 환경의 변화와 시맨틱 웹

IT환경의 변화와 산업적 기회

1770년 이후 시작된 이른바 산업혁명은 섬유산업 발전과 철강산업, 철도와 자동차에 이르는 거의 200년에 걸쳐 인류에게 큰 혜택과 동시에 어두운 그림자를 만들어왔다. 산업 혁명 과정을 잘 살펴보면, 매 30~50년마다 새로운 혁신 산업이 태어나고, 각 신흥 산업은 국가와 세계 경제의 주요 성장 엔진으로 자리매김하게 된다. 이러한 산업적 발전과 흐름은 산업 사회를 지나 정보 사회에 이르러서도 여전히 공식처럼 작동되고 있음을 발견하게 된다. 1940년대 시작된 컴퓨터 산업은 1990년에 이르러 중흥을 맞이하게 되고, 2000년대에는 산업 자체의 성장은 멈춰진 듯 보인다. 인터넷과 웹에 기반한 산업도 1980년대에 시작되어 한차례 큰 어려움을 격어 내고, 20년 만에 가장 수익성 좋은 산업으로 자리매김하였다. 각 산업적 혁신은 시장에서의 걸출한 영웅을 배출하게 되는데, 자동차의 포드, 컴퓨터나 반도체의 IBM과 인텔 그리고 인터넷에서의 구글과 야후 등을 예로 들 수 있을 것이다. 재미있는 사실은 각 산업의 초기 단계에서는 영웅적 창업자들이 그리 환영 받지 못했거나, 심지어는 비웃음을 받기도 했다는 것이다. 한 때, PC통신 시대의 산업적 리더들이 인터넷과 웹의 패러다임을 이해하지 못하고, PC통신의 부가 서비스 혹은 개선 관점으로 접근함으로, 모두 시대의 뒤안길로 사라진 사실을 상기할 필요가 있겠다.

이러한 산업의 혁신과 발전의 역사는 창의적 사업가들에게 엄청난 기회를 제공해 왔고, 이제 2010년을 바라보며, 새로운 성장 동력으로서의 산업이 발견되리라는 희망을 다시금 가지게 한다. 지난 몇 년간 주목 받고 있는 대표적 기술 혁신 산업을 보면 바이오, 나노, 유비쿼터스 등을 들 수 있을 것이다. 이중 유비쿼터스 패러다임은 지식정보의 처리와 차세대 이동 통신, 광대역 네트워크 기술 도입과 함께, 웹과 인터넷에서도 새로운 산업적, 기술적 발전을 가속화 시키고 있다. 본 칼럼에서는 시맨틱 웹 혹은 시맨틱 웹 기술이 새로운 산업적 혁신의 인프라로서 어떤 역할을 할 수 있을지, 어떤 과제를 가지고 있는지 살펴 보고 기술 비전과 산업 현실 사이에서 고민하고 있는 한국의 현 주소를 말하고자 한다.

01.20121226_saltlux_01.png
그림 1. IT 기술 환경의 변화 (솔트룩스. 2007)

Web 2.0, 시맨틱 웹 그리고 Web 3.0 ?

2006년도에 미국에 출장을 갔다가 웹의 발명자이며, W3C의 수장을 맡고 있는 팀 버너스리(TBL)를 만나 이런 저런 얘기를 나눈 적이 있다. 그 중 가장 기억에 남는 대화는 “웹 2.0”에 대한 내용이었다. 많은 사람들이 TBL에게 웹 2.0에 대해 어떻게 생각하는지를 물었고, 그의 태도와 입장은 명확했다. 소위 “웹 2.0”이라고 얘기되는 것은 자신이 제창했던 원래의 웹(웹 1.0?)과 크게 다름이 없으며, Ajax와 같은 기술적 요소와 응용적 발전은 높게 평가할 만 하지만, 이는 이미 기존 웹이 가지고 있던 잠재력 이었다는 것이다. 같인 시기에 미국의 동부와 서부에서 각각 열린 “인기 절정의 웹 2.0 컨퍼런스”와 “시맨틱 웹 컨퍼런스”에서 그가 후자를 선택해 참여했음이 이러한 그의 관점을 잘 설명해 준다고 생각한다. 어째든 TBL의 말처럼, 웹 2.0 없이 시맨틱 웹만으로도 좋으나, 시맨틱 웹과 웹 2.0 개념이 함께할 때 더 좋다는 말에 나는 적극 찬성을 하고 있다.

최근 인터넷과 웹이 데스크탑과 브라우저 밖으로 확장해 감으로 이제는 “웹”의 정의가 점점 더 모호해지고 있다. 초기의 웹(The Web)은 인터넷을 통해 하이퍼텍스트로 연결된 문서들의 세상이고 웹 브라우저를 통해 웹 페이지와 콘텐트들을 접근할 수 있는 것이다라고 인식 되었다면, 이제는 W3C에서 정의한 것처럼, “네트워크를 통해 접근 가능한 인간 지식 표현의 세상”이라고 해도 과언이 아니다 주). 기본적으로 URI와 XML(혹은 HTML) 문법, name space가 사용되어 네트워크를 통해 접근 가능한 뭔가가 있다면, 이미 그 자체가 웹의 한 구성 요소가 되어 있는 것이다. 이러한 확장된 웹의 개념은 현재 모바일 웹과 유비쿼터스 웹 그리고 시맨틱 웹 부문에서 표준화 과정을 밟으며, 활발히 논의, 발전되고 있다.

웹 2.0에 대한 관심이 조금 시들해 지고, 현재의 웹 산업이 성숙되었다는 인식이 확산되면서, 차별화되는 뭔가의 차세대 웹에 대한 예측과 논의, 논쟁이 활발히 진해되고 있다. 특히, 2006년경에 미국 쪽에서 본격적으로 거론되기 시작한 웹 3.0 관련 논의가 이제 웹 상에서 벌써 100만개 이상의 문서와 웹사이트가 검색될 정도로 관심의 대상이 되었다. 개인적으로는 웹에 숫자를 붙여가는 식으로 선을 긋는 다는 것에 거부감을 가지고 있는 편이지만, 때로는 시장과 고객에게 설명하기 쉽다는 관점에서 너그럽게 수용해 보기도 한다. 웹 3.0에 대한 분분한 예측과 논쟁을 정리해 보면, (1)시맨틱 웹 혹은 데이터의 웹(web of data), (2)실행 가능한 웹(executable web) 정도로 크게 나누어 볼 수 있을 것이다주1). 이러한 차세대 웹 환경은 보다 똑똑해진 서비스 구현이 가능하고, 개인 맞춤형과 추천이 핵심이 될 수 있는, 그리고 다양한 서비스 개체들이 상호 참조, 재활용 될 수 있는 플랫폼을 제공하게 될 것이라는 데 큰 이견은 없어 보인다. 종합해 보면, 차세대 웹은 시맨틱 웹 기술 인프라 위에, 플랫폼, 집단지성 등의 웹 2.0의 사업적 사상과 확장성, 개인 맞춤형, 추천과 같은 유비쿼터스의 상황인지적, 이음세 없는 서비스의 패러다임이 결합된 형태로 발전할 것으로 예측된다.

시맨틱 웹은 인공지능(AI) 웹인가?

시맨틱 웹의 표준화 과정에서 온톨로지와 로직, 추론이라는 범위가 포함됨으로, 시맨틱 웹이란 것이 실패한 인공지능의 재포장이 아니냐는 의혹과 공격을 받아 왔다. 인공지능 관련한 기술과 이론이 산업의 대단히 많은 부문에서 숨은 성과를 낸 점을 고려 했을 때, 과거의 연구가 실패했다고 단정해 버리는 것에 문제 제기하고 싶으나, 이보다 더 중요한 점은 시맨틱 웹과 인공지능을 동일시 하는 실수를 하지 말아야 한다는 점이다. W3C와 TBL은 시맨틱 웹이 고민되던 가장 초창기부터 시맨틱 웹이 인공지능이 아니라고 명확히 선언하고 있다.주2) 시맨틱 웹은 그 정의대로, 기계가 읽고 처리할 수 있는 잘 정의된 “데이터의 웹”이다. 얼마 전 TBL은 시맨틱 웹과 AI의 관계를 다음과 같이 정리하였다. “시맨틱 웹은 AI가 아니고, AI는 시맨틱 웹이 아니며, AI는 연구 분야고, 시맨틱 웹은 프로젝트이다. AI는 시맨틱 웹에 많은 기여를 하였고, 마찬가지로 시맨틱 웹은 AI 활동의 장이 될 수 있다.주3)” 사실 AI를 어떻게 정의 내릴 수 있는가도 큰 토론 주제이지만, 사람처럼 행동하거나 사고하는 시스템, 혹은 논리적(합리적)으로 행동하고 사고하는 시스템이라는 고전적 정의주1)를 기준으로 보면, 시맨틱 웹은 AI와 적당한 거리를 두고 있고, 상호 협력적 기여를 할 수 있는 존재임이 분명하다.

시맨틱 웹은 데이터의 웹이라는 관점에서, 웹 상의 다양한 서비스와 데이터들이 상호운용(interoperable)되기 위한, 그리고 사람과 기계, 기계와 기계가 지식 정보를 상호 명확히 정의하고 교환할 수 있는 공통 언어 및 아키텍처의 표준이라 할 수 있다. 이런 관점에서는 시맨틱 웹을 URI와 XML name space, RDF 측면에서 더 잘 관찰해 볼 필요가 있다. 시맨틱 웹은 모든 단위 데이터 혹은 지식 정보를 트리플(triple)로 표현하며 이 트리플은 URI와 XML 문법을 따르고 name space를 가질 수 있다. 데이터를 그래프 구조의 트리플로 표현한다는 것, 이것이 시맨틱 웹의 기본이다. 그리고 그 위에 상호운용과 의미 모호성 배제를 위한 스키마가 존재하게 되는 것이다. AI가 사고와 행동을 중시하고, 이를 위해 지식 표현과 로직을 사용한다면, 시맨틱 웹은 1차적으로 상호운용을 목적으로 한 웹 상의 데이터가 중시되는 것이다. 그리고 그 위에 지식 표현과 로직이 적용되어야 한다.

2004년 RDF, OWL 등의 시맨틱 웹 체계와 언어가 표준화되면서, 많은 연구자들이 데이터 보다는 지식 표현과 로직에 집중하는 경향이 있었다. 그리고 시맨틱 웹과 OWL을 동일시 하거나, OWL 중 Description Logic을 시맨틱 웹 언어의 전체로 인식하는 오해를 받기도 했다. 어째든 이런 과정을 거치며, 지난 4년간 얻은 큰 기술적 소득은, 트리플 정보의 자동 생성, 수십억 개 이상의 대용량 트리플 저장과 관리, 향상된 SPARQL 질의 엔진 등의 상용 기술 확보와 이에 기반한 여러 산업적 성공 사례들을 경험하게 되었다는 것이다.

2008년에 들어서면서 적어도 미국 시장에서는 시맨틱 웹 기술이 산업적 탄력을 받고 있는 것으로 보인다. 이러한 시장의 관심은 시맨틱 웹을 표방한 수 많은 벤처 기업을 탄생 시키고, 오라클, 야후, IBM 같은 거대 기업이 시맨틱 웹 플랫폼과 시맨틱 검색 엔진을 출시하도록 만들었다. W3C 내에서도 상용적, 실용적 시맨틱 웹을 위한 부단한 노력을 기울이고 있다. 이중에 RDFa와 GRDDL은 초기 시맨틱 웹 활성화를 위한 중요한 요소라고 할 수 있다. 또한, 온톨로지와 로직 관련해서도 보다 실용적 프로젝트들이 추진 중인데, 논리 표현 수준을 낮추면서 실용 수준의 고속 추론이 가능한 OWL 1.1의 제안이 대표적인 활동이라 하겠다.

02.20121226_saltlux_02.png
그림 2. 표준화 진행 중인 OWL 1.1 (솔트룩스/W3C, 2007)

앞에서 설명한 것처럼, 상호운용성은 시맨틱 웹의 존재 이유 중 하나이다. 시맨틱 웹의 근간이 데이터의 웹임이 분명하고 데이터 없이 시맨틱 웹은 존재할 수 없다. 그러나, 또한 “시맨틱”이라는 용어가 의미하듯이 단순한 단위 데이터(트리플)들의 집합이 시맨틱 웹이 될 순 없다. 데이터들의 의미 모호성 해소, 명시성 확보, 데이터와 서비스의 공유와 교환을 위해서는 공통의 언어(common language)가 필요하며, 이것이 단순하던 복잡하던 웹 온톨로지가 필요한 이유이다. 온톨로지(RDFS, OWL)가 참조되지 않은 RDF 데이터의 집합은 시맨틱 웹이라기 보다는 웹에서 접근 가능한 그래프 구조의 데이터 집합일 뿐이다.

시맨틱 웹은 오래된, 이미 실패한 기술인가?

최근, 소프트웨어 산업뿐 아니라 국제 산업 환경 전반에 위기감이 고조되고 있다. 특히 원자재 수입 및 완제품 수출 의존도가 매우 높은 한국 경제의 경우 환율, 유가, 원자재가 등의 예측되지 않는 경영 환경 변수의 변동이 경영자들에게 큰 스트레스가 되고 있는 것이 사실이다. 어려운 국제 사업 환경에서도 한국이 반드시 성공할 수 밖에 없는 가장 큰 본질적 경쟁력을 하나만 든다면, 주저함 없이 “스피드”를 고를 수 있을 것이다. 서양의 200년을 50년이라는 짧은 시간에 믿지 못할 속도로 성장을 이루어 낸 한국인들에게는 외국인보다 4배는 빠른 시계를 가지고 있음이 확실하다. 인터넷을 포함해 IT전반에서의 이러한 속도 경쟁력, 새로운 것에 대한 수용성, 불편함을 좀처럼 참기 힘들어 하는 습성은 지금의 한국을 만들어 준 가장 큰 동력 중 하나라고 평가할 만 하다. 오죽하면 한국에서는 당연히 여겨지는 당일, 현장 휴대폰 A/S가 서양 사람들에게는 감동이 되었을까. 문제는, 2만불 국민소득 시대가 되니 이러한 “빨리 빨리” 경쟁력에 가리워졌던 그늘들이 하나 둘씩 성장의 뒷다리를 잡더라는 것이다. 가장 큰 문제 중 하나는 거의 모든 부문에서 장기적 안목으로 차분히 발전 전략을 추진하지 못하고, 압축해서 해결해 버리려고 하며, 조급하게 단정하고, 성공과 실패를 규정해 버리는 것이다.

특히, 기술부문에 있어서는 케케묵은 문제가 새삼 한국 경제 성장의 한계로 작용하고 있다. 바로 핵심 기술, 원천 기술의 결여와 같은 것인데, 응용 기술로 빠른 성장 전략을 구사했던 한국은 속도와 장기적 안목이라는 두 가치 사이에서 딜레마에 빠진 것이다. 이러한 특성은 소프트웨어 산업과 웹 기반 서비스 산업에서도 공통된 문제로 작용하고 있다. 새로운 기술과 사업의 장기적 안목을 가지지 못하고, 핵심 기술 개발과 산업 기반 확보 등의 과정을 생략하고 응용과 활용 기술에서 승부를 보고자 하기 때문이다.

시맨틱 웹 기술은 응용, 서비스 기술이 아니다. 많은 산업에 영향을 주는 인프라 기술이며, 눈에 보이지 않는 느리게 움직이는 깊은 바다의 큰 조류인 것이다. 분명히 시맨틱 웹의 한 구성 요소인 온톨로지와 로직은 이미 2300년이나 된 오래된 것이고, AI와 추론 기술도 30~40년이 된 기술임은 틀림 없다. 그럼에도 실제 시맨틱 웹이 표준화 된지는 이제 4년 밖에 안 되었고, 이제서야 산업적 기술적 기반이 확보되어 가는 상황에서 기술과 산업의 성패를 거론한다는 것은 매우 안타깝고 경솔한 판단이 아닐 수 없다. 우리에게는 시맨틱 웹을 포함해 다양한 인프라 산업 기술들의 사업적 기반 확보를 위해, 보다 많은 노력과 인내심이 필요하다. 1989년 TBL에 의해 제창된 웹과 HTML이 시장에서 인정을 받는데 거의 10년이 걸렸고, 사람들에게 분명한 편익을 제공하고, 사업적 가치가 있다는 것을 확인하는데, 13년 이상의 세월이 필요 했다는 것을 기억하자. 아마도 시맨틱 웹의 온전한 구현은 더 오랜 기다림과 인내를 필요로 할 것이다.

매년 가트너 그룹, IDC에서는 주요 기술과 산업에 대해 심도 있는 시장 조사와 분석을 수행하고, 시장 예측 전망을 내놓는다. 지난 4년 동안 시맨틱 웹 기술과 시장은 한 해도 빠짐 없이 중요한 기술과 미래 시장으로 전망되며, 분석/예측되어 왔다. 주목할 만한 사실은 가트너 그룹의 경우 시맨틱 웹 기술이 Hype Cycle의 기술 과장(inflation) 단계를 넘어 이제 상용화 단계로 넘어가고 있다고 진단했다는 것이다. 최근 조사 분석된 자료를 보면, 시맨틱 웹이 활성화 되는데 꽤 오랜 시간이 걸릴 것이라 예측하고 있지만, 그림 3처럼 이미 시작된 시맨틱 웹의 초기 단계는 RDFa와 같은 형태로 HTML 문서에 내장된 Semantic Hypertext가 폭 넓게 쓰일 것이며, 2010년경에는 웹에서 RDFa와 RDF가 매우 일반화되어 사용될 것으로 전망하고 있다. 한국시맨틱정보산업협회의 분석에 의하면 궁극적 시맨틱 웹 비전의 달성은 10년에서 15년이 걸릴 것으로 예측하고 있는데, “3~5년 전망은 늦어져도, 10~20년 전망은 예상보다 빨라 지더라”고 한 누군가의 말처럼, 실제 시맨틱 웹의 산업적 가치는 더 빠르게 실현될 것이다. 2008년 봄, 웹에는 100만개 이상의 RDF와 2만개 이상의 OWL 파일이 유통되고 있다. RDFa의 양은 측정도 되지 못하고 있다.

03.20121226_saltlux_03.png
그림 3. 시맨틱 웹의 진화 (한국시맨틱정보산업협회, 2007)

서비스 플랫폼에서의 시맨틱 웹

멀티사이드 플랫폼 비즈니스와 시맨틱 웹

현재의 웹이 개방 공유된 실질적 시맨틱 웹으로 발전하려면 더 많은 인내와 노력이 필요하겠지만, 특정 분야에서는 빠르게 수용되어 실용화되고 있다. 이미 밝힌 것처럼, 시맨틱 웹의 근본 취지인 상호운용성은 이것이 중요시 될 수 밖에 없는 다양한 멀티사이드 플랫폼(multi-sided platform)에서 인공지능적 요소와 함께 활용되고 있다.

이동통신 서비스 플랫폼과 시맨틱 웹

국내뿐 아니라 대부분의 선진국가에서 이동통신 서비스 시장은 성숙 산업으로 대단한 경쟁 상황에 놓여있다. 최근 일본은 무료 통화 가격 경쟁이 붙었고, 미국에서는 FCC의 700Mhz 경매에 구글이 뛰어 들면서, 더욱 치열한 경쟁 속에서 정부만 큰 돈을 벌게 될 것으로 전망되고 있다. 특히, 구글은 주파수 경매 참여와 함께 안드로이드(Android) 모바일 단말 플랫폼을 무료로 제공하기 시작함으로 모바일 시장에서의 새로운 사업자로 견제를 받고 있다.

이러한 모바일 서비스 시장의 경쟁 가속화는 가입자 포화의 요인 뿐 아니라, 3G환경에서의 망 개방과 자유로워진 지역 로밍, 그리고 skype 등의 인터넷 전화 서비스가 이동통신시장에 진입 하는 등, 매우 다양한 변수가 동시에 작용되고 있다. 2000년대 초 유럽의 WWRF에서 이러한 모바일 시장 환경에 대응하기 위한 토론과 연구가 진행되었고, 시맨틱 기술이 적용된 모바일 서비스 플랫폼을 그 추진 방향으로 제시하게 된다. 모바일 서비스 사업이 결국은 멀티사이드 플랫폼 사업으로 바뀔 수 밖에 없음을 예상하고 있는데, 이는 망을 틀어 쥐고 있는 것이 더 이상 경쟁력의 원천이 될 수 없으며, 개방된 플랫폼으로 서비스 사업자, 콘텐트 사업자, 광고주, 별정사업자, 고객을 적극적으로 참여시킴으로 하나의 생태계(ecosystem)을 구현하고, 그 생태계를 쥐고 있겠다는 계산이 된다. 아마도 구글이 모바일 서비스를 시작한다면, 안드로이드 위에 다양한 서비스 어플리케이션과 콘텐트를 연결하고, 돈은 광고주로부터 벌고, 고객은 무료로 이동통신 서비스를 사용하도록 하는 전형적 멀티사이드 사업을 진행하게 될지도 모르는 일이다.

어째든, 이러한 모바일 플랫폼에서 왜 “시맨틱 웹”이 거론되고 있는 것일까? 답은 간단하게도 상호운용성과 맞춤형 서비스로 정리된다. 생태계를 구성하기 위해 차세대 모바일 플랫폼의 가장 중요한 요구사항은 다양한 데이터, 서비스 리소스의 재활용과 생산성 향상일 것이다. 이동통신 망과 그 서비스 시스템은 매우 복잡하고, 방대하며, 각 서비스 마다 분산된 이질적 데이터를 별도로 운영하고 있다. 서비스 생산성 향상과 구축, 운용 비용을 줄이기 위해서는 이러한 자원들의 상호운용성을 반드시 확보해야 하는데, 이를 위해서는 뭔가의 의미적 통합 체계가 필요하다고 판단되는 것이고, 현재로서는 시맨틱 웹 기술이 가장 좋은 대안 중의 하나로 평가되고 있다. 두 번째 요소인 서비스 개인화는 데이터 서비스 구매를 유도하도록 하여, 통신료 수익을 향상시키겠다는 목적이 깔려있다. 이미 꽤 오랜 기간 동안 이동통신 회사들은 데이터 기반 서비스 인프라 구축에 큰 투자를 해왔는데, 여전히 음성 통화와 SMS가 주된 수입으로, 데이터 서비스 매출 증가는 더딘 편이다. 만약, 사용자 상황(context)과 개인 선호(preference)에 적합한 서비스와 콘텐트를 추천할 수 있게 된다면, 불편한 단말 환경에서의 서비스 발견성(findability)이 향상될 것이고 이는 서비스 구매율의 증가를 의미한다. 시맨틱 웹 기술 기반의 사용자 상황, 선호 정보 표현, 사회망 분석 등은 여러 도전적 과제에도 불구하고 매우 매력적인 요소임이 틀림없다.

모바일 환경에서의 멀티사이드 플랫폼 사업은 이제 막 시작된 단계라고 할 수 있다. WWRF에 이어 WWI주1)가 창설되면, EU FP6와 FP7의 IST(Information Society Technologies) 프로그램 중 차세대 모바일 플랫폼 부분을 이끌고 있으며, 대표적 사업인 MobiLife와 Spice에서 시맨틱 웹 기술이 이미 시범적으로 적용 되었다. 솔트룩스는 EU의 FP6와 FP7을 수행하고 있는 유일한 한국 기업인데, 공동 사업을 수행하는 텔레포니카, 이텔, 도이치텔레콤(티모바일), 폴리쉬텔레콤, 지맨스 뿐 아니라 프랑스텔레콤(오랜지)과 BT, 도코모, 노키아 등 대부분의 통신 관련회사들이 시맨틱 웹 기술을 자사의 플랫폼과 서비스 체계에 적용하는 연구들을 진행하고 있다. 국내에서는 KT와 KTF가 이 분야에 많은 투자를 하고 있다.

유비쿼터스 서비스 플랫폼과 시맨틱 웹

한국에서는 초등학생도 아는 “유비쿼터스”라는 단어가 웬만큼 학식 있는 서양 사람들에게도 상당히 생소한 단어라는 것은 참 재미있는 사실이다. 센서 네트워크나 미들웨어 플랫폼, 다양한 엑추에이터/단말 등 인프라도 깔리지 않은 상황에서 한국은 U-City를 포함해서 대부분의 아파트가 이미 유비쿼터스 아파트가 되어 버린 것 같고, 인프라도 없이 유비쿼터스 서비스 시스템을 구축하도록 요구 받고 있다. 지능형 홈네트워크 사업과 같이 이미 몇몇 유비쿼터스 지향 사업들은 실패한 것으로 여겨지고 있기도 하니, 안타까울 따름이다. 시맨틱 웹과 마찬가지로, 절차를 거치지 않고 압축 과속하는 느낌을 버릴 수 없다.

어째든, 팔로알토 제록스 연구소의 천제적 과학자 마크와이저(Mark Weiser)에 의해 제안된 유비쿼터스 컴퓨팅 개념은, 현재 상황인지(context awareness)와 지능형 서비스라는 큰 틀에서 다양한 분야에 파급, 적용되고 있다. 유비쿼터스 서비스 시나리오들의 대표적 특성을 보면, (1)사용자, 사용자 그룹 혹은 시스템의 상황을 인지해 내고, (2)분산된 이질적 컴퓨팅 개체들이 상호 의사소통, 협력하여, (3) 맞춤형 서비스를 위한 자원을 확보하고, (4)안전하게 서비스를 수행 유지하며, (5)다양한 디바이스와 이동환경에 대응해, (6)사용자 혹은 컴퓨팅 개체와 상호작용하여, (7)이음세 없는 서비스를 수행 한다는 정도로 정리해 볼 수 있다. 이러한 서비스 시나리오의 기술적 과제로는 (1)어떻게 상황정보를 표현할 것인가? (2)각 이질적 컴퓨팅 개체가 타 개체와 어떻게 상황 정보를 주고 받고 통합할 것인가? (3)기계가 어떻게 상황을 “인지”할 수 있는가? (4)기계가 스스로 적합한 서비스를 결정할 수 있는가? 등등이 있는데, 이들 모두 상호운용성과 정보의 의미 처리가 전제되어 있어야 함을 알 수 있다. 특별히 유비쿼터스 형 서비스에서는 시스템의 지능적 행동 부분이 보다 강조되는데, AI적 요소가 더 부각되어야 함을 알 수 있다. 정리해 보면, 상황정보와 지식의 의미 모호성 없는 표현과 공유, 이에 기반한 추론 기능이 요구되고, 이는 시맨틱 웹의 많은 장점과 부합되는 면이 있다.

실제 국내외에서 진행되고 있는 많은 유비쿼터스 프로젝트들이 시맨틱 웹 기술을 상황인지와 추론, 분산 구조 상에서의 상호운용성 확보를 위한 플랫폼의 기반 기술로 활용을 하고 있다. 또한 URI 기반의 시맨틱 웹 표준을 따름으로 개방 구조의 웹 접근성 확보, 도메인 지식 확장의 가능성을 열어두고 있다. U-City와 같이 상당히 큰 규모의 프로젝트에서는 결국 실시간 대용량 상황정보 처리와 실용적 추론이라는 기술적 과제를 가지게 되는데, 하루 10억개 이상의 센서 정보를 트리플로 변환하여 저장, 수십ms 내에 추론을 해 내는 현 기술 수준에 상황정보 필터링 기술 등이 추가로 발전해야 할 것으로 판단된다. 최근에 전국적으로 U-City 프로젝트들이 경쟁적으로 추진되고 있는데, 보여주기 위한, 구호에 멈추는 유비쿼터스가 되지 않기 위해서는 보다 체계적이고 진지한 접근과 장기적 안목의 투자와 관리가 반드시 수반되어야 할 것이다.

의미기반 검색과 시맨틱 웹 서비스 플랫폼

역시 시맨틱 웹의 백미는 의미기반 검색이 될 것임이 분명하다. 이미 구글을 비롯해 많은 인터넷 기업들이 자신의 검색 플랫폼 API를 공개하고 이를 통한 간접 네트워크 효과를 톡톡히 누리고 있다. 이런 상황에서 야후는 3월 중순 시맨틱 웹에 본격 대응하고, 시맨틱 웹 기반 검색 서비스를 추진한다고 발표했다주1). 필자가 알고 있는 정보로는 구글도 내부에서 다양한 시도를 진행하고 있다. 시맨틱 검색에 대한 요구는 전통적으로 재현율에 강점을 보여온 키워드 검색의 품질 만족도를 향상시키자는 목적에서 출발된다. 구글을 포함해 대부분의 검색 포털은 웬만한 키워드에 대해 적게는 수만 개 많게는 수천만 개의 검색 결과를 제공한다. 이러게 많은 검색 결과는 사용자에게 결코 도움이 되지 못하고 있다.

시맨틱 검색이 가야 할 길은 아직 멀지만, 매우 다양한 시도가 이루어 지고 있다. 그 중에서 주목해 볼 만한 대상은 바로 IBM이다. IBM은 UIMA주2) 프레임워크를 공개, 표준화하고 이를 자사의 OmniFinder와 연결함으로 시맨틱 검색 플랫폼을 B2B 및 B2C 시장에 본격 공급하기 시작했다. UIMA는 텍스트와 같은 비 구조적 문서를 분석하여 시맨틱 메타데이터를 생성하고, 이를 검색엔진 등과 연동할 수 있도록 돕는 공개 프레임워크 인데, 기존의 텍스트 마이닝 기술을 시맨틱 웹 및 시맨틱 검색에서 활용할 수 있도록 하고 있다. 오픈 플랫폼으로서 UIMA의 위치는 매우 절묘해 보인다. 수 많은 검색 엔진들이 쉽게 시맨틱 검색으로 발전할 수 있는 틀을 만들어 줄 뿐 아니라, 다양한 비즈니스 이해 관계자들을 불러 모으고 있기 때문이다. 물론 조금 더 지켜 봐야겠지만, 무료로 배포되고 있는 OmniFinder와 UIMA가 어떤 형태던 플랫폼으로의 산업적 가치를 생산해 낼 가능성이 높아 보인다.

실제 웹 세상이 충분한 양의 RDF와 OWL로 채워지기 전에는 텍스트 마이닝에 의한 약한 시맨틱 검색이 중요한 대안이 될 것이다. 특히, 개체명 인식을 통한 키워드의 모호성 해소 라던지, 자동 군집을 통한 정보 접근성, 검색 정확성 향상은 당분간 고객의 검색 만족도 재고에 충분한 역할을 할 것이다. 궁극적으로는 그림 4와 같이 시맨틱 웹과 기존 웹을 대상으로 의미기반 검색뿐 아니라, 적절한 수준의 지식 베이스 기반 정보 추론 서비스가 통합될 것이다.

04.20121226_saltlux_04.png
그림 4. 시맨틱 웹 기반 검색 시스템 (솔트룩스, 2007)

시맨틱 웹에 기반한 또 다른 중요한 응용 플랫폼으로 웹 정보 통합 플랫폼과 시맨틱 웹 서비스 플랫폼, 소셜 네트워크 서비스 플랫폼 등을 들 수 있다. 웹 정보 통합 플랫폼은 웹 페이지, 미니홈피, 블로그 등으로 분리되어 있는 웹 자원들을 의미기반으로 상호운용 하도록 돕는다. 대표적은 사례로 DERI의 SIOC주1) 프로젝트를 들 수 있는데, SIOC은 시맨틱 웹 기반에 다양한 웹 자원과 소셜 네트워크를 의미메타데이터로 연결하고 상호 연결활 수 있는 환경을 제공한다. 시맨틱 웹 서비스 플랫폼으로는 WSML, WSMO 기반의 WSMX주2)를 들 수 있다. WSMX는 시맨틱 웹 기술을 활용해 웹 서비스 개체들을 보다 유연하게 설계 구현하고 통합, 실행할 수 있도록 돕는다.

보이지 않는 엔진, 시맨틱 웹

2007년, SAC(Semantic Annual Conference)에서 STI의 디터펜젤 교수와 일본의 미조구치 교수 등을 초청하여 시맨틱 웹 국제 강연회를 개최한 적이 있다. 워낙 저명한 분들을 모신지라, 기자 회견이 별도로 있었는데, 한 기자 분이 다음과 같은 질문을 했다. “가장 훌륭한 시맨틱 웹 기술이 무엇입니까?” 디터펜젤 교수가 망설임 없이 대답했다. “보이지 않는 시맨틱(invisible semantic)입니다.” 통찰력을 주는 한마디였다. 웹 2.0이 산업적 관점, 사용자 관점, 서비스 관점에서 눈에 보이게 추진되어 왔다면, 시맨틱 웹은 분명히 학문적, 기술적 관점에서 접근 한 경향이 있고, 실제 상용화 되어 산업 깊숙이 파고든다고 하더라도 눈이 쉽게 보여지는 기술은 아니다. 실제 10년이 걸려서 웹 세상이 시맨틱 메타데이터로 충분히 채워진다고 하더라도, 시맨틱 웹 그 자체가 평범한 사용자의 눈에 보여지진 않을 것이다. 수 많은 불로그와 뉴스들의 RSS가 RDF에 기반한다는 것이 눈에 보이지 않았던 것처럼.

시맨틱 웹의 발전이 고객에게 주는 궁극적 편익은 무엇이 될 것인가? 아마도 보다 편하고 정확한 정보 획득과 활용, 온전히 표현되고 연결된 지식들로부터 통찰력을 얻게 되는 것이 너무나도 자연스러운 일상이 되는 것을 미래의 고객들은 경험할 것이다.

한국의 시맨틱 웹 산업, 어떻게 발전해야 하나?

최근 미국의 시맨틱 웹 산업이 발전되는 양상을 보면서 많은 교훈을 얻는다. 기반 기술의 이론적 토대 마련은 학교에서, 막대한 연구 자금은 DARPA와 같은 정부 기관이 다양한 프로젝트를 통해서, IBM을 포함한 대기업들은 끊임 없는 개발 투자와 그 결과의 공개를 통해, Oracle과 몇몇 기업들은 철저한 상용화 정책을 고수하면서, 그렇게 산업을 유기적으로 한 단계 한 단계 발전시켜 가는 것이 피부로 느껴진다. 초기 연구단계에서는 유럽이 주도권을 가졌다면, 현재 상용화 단계는 기업들에 의해 미국을 중심으로 발전하는 모습이 명확하다. 특히, 매년 개최되는 Semantic Technology Conference주1)는 철저하게 산업계 주도로 진행되고, 매년 참여자가 수백 명씩 큰 폭으로 증가하고 있는 것이 부러울 따름이다.

반면에 한국은 국가 주도의 몇몇 R&D 사업이 명맥을 유지하고 있고, 소수의 벤처기업만이 시맨틱 웹의 비전을 외치며 고군분투하고 있는 실정이다. 또다시 생태계 얘기를 하게 되어 안타깝지만, 시맨틱 웹 산업은 인프라 산업이며, 장기적 안목을 가지고 깊은 뿌리를 내리게 해야 할 대상이다. 가치 사슬이 산업 전체에 잘 구성되어 순환이 될 때라야 비로서 뭔가 손에 잡히는 성과와 산업적 가치가 생기게 되기 때문이다. 대충 한 번 시도해 보고, 눈에 보이지 않는다고 포기하게 된다면, 인터넷 강국, IT강국이라 얘기하지만 국민 모두가 인텔의 CPU와 MS 윈도우 위에 IE 브라우저를 띄우고, 아파치 서버에 접속해서 MS-SQL에 저장된 정보를 시스코 라우터를 통해 전달받는, 그리고 우물 안 개구리처럼, 오직 국내 시장에서만 큰 목소리 내는 웹 산업계의 현실이 미래에도 계속 반복될 뿐이다.

어떻게 하면 될까? 눈에 보이는 성과 너머의 큰 비전을 마음 품고 사명감과 인내심을 가지고, 샘이 깊은 우물을 파는, 그리고 마침내는 성공에 이르는 멋진 리더들이 늘어난다면 뭔가 큰 변화가 일어날 수 있지 않을까?

About Saltlux Inc.
솔트룩스는 기업용 검색솔루션 및 정보 마이닝, 시맨틱 웹, 유비쿼터스 컴퓨팅 등 차세대 웹 및 지식 서비스 전문기업입니다. 정보 마이닝 및 시맨틱 기술 부문에서는 국내 1위 기업으로서의 시장을 확보하고 있으며, 미국 및 유럽의 세계적인 기업 및 연구 단체들과 공동연구 및 협력을 통해 세계적인 기술력을 보유하고 있습니다.

주요사업영역 및 핵심기술
● 핵심기술 : 빅데이터 처리, 분석 마이닝 기술, 시맨틱 기술
● 시맨틱 검색 : 초대용량 시맨틱 검색, 고정밀 텍스트 마이닝, 소셜 검색 및 분석
● 데이터 지능화 : 서비스 개인화, 추천, 상황인지, Geo-Semantic, 지능형 모바일 서비스
● 웹 3.0 : 시맨틱 웹, LOD, 온톨로지, 추론엔진, 소셜 미디어 분석(트랜드, 평판)

출처 : 솔트룩스

제공 : DB포탈사이트 DBguide.net

저작자표시

'Computer Science' 카테고리의 다른 글

[보안, 제로데이 취약점 분석] [우분투] MetaSploit 설치 및 기본 (0)	2013.02.09
검색의 진화, 시맨틱 검색 (0)	2013.01.15
Metro Style App 프로그래밍 강좌 모음 (0)	2012.12.25
[알아봅시다] 소프트웨어 정의 네트워크(SDN) (0)	2012.12.17
JavaScript 및 CCS 코드 은닉 (php의 경우) (0)	2012.11.12

졸리운 곰의 정보기술 여행 [김성준]