검색의 진화, 시맨틱 검색



지식 사회로의 진화

오랜 세월, 인간은 생명 유지에 치명적 영향을 미치는 두 가지 결핍 상황에 적응하기 위해 끊임없이 진화해 왔다. 음식과 영양의 결핍은 인간 몸에 지방을 축적하는 방식으로 에너지를 보존하도록 진화시켰으며, 인간의 뇌는 자신의 안전과 경쟁력 확보를 위해 채워지지 않는 정보 갈증을 느끼도록 프로그래밍 되었다. 근대 이후 산업과 정보 혁명의 풍요로움은 수억 년의 인간 진화가 더 이상 축복이 아닌 재앙이 될 수 있음을 암시하고 있다. 화학, 유전공학, 기계의 발전은 비료와 농약, 농기계를 포함해 농업 생산성과 유통 산업의 혁명을 가져 왔으며, 여전한 지역적 불균형 속에서도 인류는 그 어느 때보다 먹을 거리의 풍요로움을 누리게 되었다. 풍요의 속도가 진화의 속도를 크게 추월함으로, 지방 축적의 축복은 역설적이게도 비만과 고혈압, 당료 등, 만성 성인병의 주요 원인이 되어버렸다. 컴퓨터와 인터넷 중심의 정보통신 혁명은 풍요로움이 성장보다는 비만을 만들어 낼 수 있음을 다시 한번 증명해 보이고 있다. 이제는 정보가 없어서가 아니라 너무나 많은 정보에 무료로 접근할 수 있기 때문에, 의사결정 하기가 더욱 어려워졌으며, 더 많은 시간과 에너지를 투자해야 하는 역설적 상황이 된 것이다. 결국, 단순히 배를 채우는 것이 아니라 유기농 등 몸에 좋은 음식을 가려서 적게 먹듯이, 의사 결정과 경쟁력의 핵심이 되는 정보를 식별해 섭취할 수 있는 역량이 더욱 중요해진 것이다. 경영학의 구루, 피터 드러커 교수의 표현처럼 미래는 정보를 가진 사람이 힘을 갖는 것이 아니라, 의미 있는 정보를 식별하고 자신의 지식과 연결, 이를 행동으로 옮길 수 있는 능력을 가진 사람과 조직이 힘을 가지는 세상으로 진화할 것이다.

인터넷과 월드와이드웹(WWW)은 분명, 지식 사회로의 변이를 가속시키는 변곡점 역할을 해 왔다. 그림 1과 같이 그 시작은 정보의 생산과 유통 활성화에 따른 검색 서비스 경쟁력이 핵심이었지만, 정보의 양 보다는 질과 신뢰도가 중요해 짐에 따라 사람 중심의 인터넷인 소셜 네트워킹 서비스(SNS)로 그 무게 중심이 옮겨지게 되었다. 이미 패이스북의 일일 방문자 수가 구글을 넘어 섰으며, 마이크로소프트가 엄청난 액수로 스카이프를 인수 한다는 소식은 이러한 변화의 중요성을 실감하게 한다. 그러면, 이제 앞으로 다가올, 혹은 이미 시작된 그 다음 단계는 무엇이 될까? 최근 이 분야의 많은 전문가들은 방대한 데이터의 상호 연결과 의미 분석을 통해 숨은 정보를 발견하고, 궁극적으로 의사 결정을 보다 쉽고 정확하게 할 수 있는 단계로 발전하리라 믿고 있다. 그 핵심이 시맨틱 웹과 시맨틱 검색이 되리라 전망되는데, 이는 컴퓨터가 상호 연결된 데이터의 의미를 파악하고 분석함으로 중요 정보를 식별, 더 나아가 상황에 맞게 정보를 재조직 함으로 문제 해결을 위한 지식 확보를 가능하게 하는 것이다. 본 기고의 주제인 시맨틱 검색은 정보의 위치 파악이 목적인 기존의 키워드 검색과 달리, 방대한 개별 정보를 상호 연결하고, 분석함으로 그 안에 숨겨진 의미를 새롭게 발견, 올바른 의사 결정과 문제 해결을 지원함으로 지식기반 사회에서의 본질적 경쟁력을 확보하는데 그 목표를 두고 있다.



01.tech_img58.gif

시맨틱 검색의 개념

2000년 초, 이미 IBM, 마이크로소프트 같은 대기업과 주요 대학을 중심으로 시맨틱 검색에 대한 기초 연구가 시작되었다. 초기의 시맨틱 검색은 사용자 입력 키워드의 의미적 해석 혹은 의미 모호성 해소에 집중된, 언어 처리 관점의 협의적 시맨틱 검색 시스템 개발이 주류였다. 그 이후, 시맨틱 검색 영역은 방대한 비정형 데이터 연결과 분석, 정보 추천과 개인화, 더 나아가 위치기반 모바일 맞춤형 검색과 소셜 네트워크 및 지식 구조 분석에 이르는 매우 큰 영역으로 발전해 가고 있다.

표 1과 같이 시맨틱 검색을 5가지 유형으로 구분해 볼 수 있다. 의미 모호성 해소와 어휘 개념 확장 검색은 전통적으로 자연언어처리 부문에서 관심을 가졌던 영역으로, 의미 모호성 해소는 정보 검색의 정확율 향상이 주요 목표가 되며, 어휘 개념 확장의 경우 검색 재현율을 향상시키는데 초점이 맞춰져 있다. 개체 특성 확장과 연관 주제 확장의 경우, 정보가 가진 특성을 구체적으로 이해하고, 관련 정보간의 상호 관계를 파악함으로, 숨은 의미를 이해할 수 있도록 한다. 최근 큰 관심을 받고 있는 의도기반 검색(intent based search)은 사용자의 검색 의도와 목적을 파악하고, 그에 적합한 정보와 연관 서비스를 추천하는 것을 목표로 한다. 의도기반 검색을 구현하기 위해서는, 사용자 의도를 올바르게 인지하고, 이를 서비스와 연결하기 할 수 있는 기술의 확보가 필수적이며, 사용자 상황 인지, 사용자 피드백 학습, 대화형 UX를 통한 의도 구체화 등의 매우 다양한 방법론이 연구되고 있다. 주목할 점은 구글, 마이크로소프트, 애플 등의 세계적 기업들이 지난 3년간 Powerset, Metaweb(Freebase), Siri 등을 인수 하고, 시맨틱 검색 관련한 내부 연구 개발 조직을 확대, 강화하여 그 사업 범위를 빠르게 확대해 나가고 있는 것이다.


02.tech_img59.gif


시맨틱 검색과 기존 검색 시스템과의 가장 큰 차이점은, 인덱스의 구조에서 찾아 볼 수 있다. 기존 검색 시스템은 형태소 분석 등의 과정을 통해 문서로부터 키워드(토큰)를 추출해 내고, 이들을 역파일(invert file) 구조의 인덱스에 저장 하게 된다. 반면에 전형적인 시맨틱 검색 시스템은 문서로부터 시맨틱 네트워크를 추출, 이를 그래프 구조로 지식베이스에 저장하고 검색 시에는 지식베이스에 질의(query)하는 방식을 취하게 된다. 매우 다양한 관점의 시맨틱 검색 기술이 개발되고 있으나, 어떤 형태던 시맨틱 네트워크로 정보가 표현, 재구성되어 지식 베이스에 저장, 질의 하는 형태로 재구성될 수 있다. 시맨틱 네트워크는 개념(컨셉, 용어)과 그들간의 관계가 표현된 지식 표현 방법 중 하나이다. 그림 2는 두 시스템의 차이점을 잘 설명하고 있다.

시맨틱 검색 기술의 핵심은 엄청난 양의 비정형 정보로부터 품질 좋은 시맨틱 네트워크를 어떻게 자동 생성, 저장하고 관리할 수 있는가 이다. 과거에는 시소러스나 워드넷과 같은 언어학적 시맨틱 네트워크를 사람의 손으로 일일이 만들어 왔으나, 상용 목적의 거대한 검색 시스템 개발을 위해 사람이 손으로 작업하는 것은 불가능해 졌다. 최근에는 문서로부터 시맨틱 네트워크를 자동 추출, 구성하기 위해 기존의 자연언어 처리뿐 아니라, 텍스트마이닝을 포함한 다양한 기계 학습 기술들, 추론 등의 보다 진보적인 AI 기법들이 상호 통합되어 적용되고 있다. 이러한 시맨틱 검색 기술의 발전은 정보를 정확히 잘 찾는 1차 목적의 달성뿐 아니라, 검색된 방대한 정보에 대해 그들의 상관 관계, 숨어 있는 이면 정보, 트랜드와 이슈 분석, 요약, 시각화 하는 등의 2차적 심층 분석 기능을 구현하는 방향으로 발전하고 있다.
03.tech_img60.gif


그림 3은 사용자 관점에서의 비정형 정보 검색과 분석의 진화 단계를 보여준다. 모든 정보시스템 구현의 시작은 정보를 생산하고 안전하게 저장하는 구조를 확보하는 것이다. 우리는 이 단계를 level 0로 정의한다. 정보가 쌓여가기 시작하면, 이를 관리하고 싶어진다. 디렉토리를 만들어 분류를 하거나, 제목, 날짜 등의 메타데이터로 태그를 다는 형태가 전형적이다. 초기 야후는 이 방법을 통해 시장 선점이 가능했다. 그러나 관리체계가 잘 갖추어진 경우도 문서의 수가 수백만 개 이상이 되면, 심지어 웹과 같이 수천억, 수조 개 이아 활용하는 것이 점점 어려워 진다. 이때가 비로서 정보검색의 중요성이 인식되는 단계인 level 2가 된다. 구글은 혁신적인 저장 및 인덱싱 구조와 성능 좋은 랭킹 알고리즘을 통해 엄청난 양의 문서로부터 사용자 만족도가 높은 검색 성능을 달성할 수 있었다. 구글은 level 2 단계에서 지배자가 된 것이다.

기존 검색 시스템이 제공하는 방대한 정보에의 빠른 접근성은 상당기간 시장을 만족시켜 왔다. 그러나 이제는 검색 결과 조차 사람이 모두 읽고 이해하기 힘들 정도로 많아지게 되었고, 단지 특정 키워드를 포함하는 문서를 찾아 주는 것으로는 사용자 욕구를 충족하기가 점점 힘들어 지고 있다. Level 3 발견성 확보와 level 4 분석성 제공은, 검색 결과를 정리, 요약, 분석함으로 그 안에 숨겨진 핵심 정보와 상호 연관성, 트랜드 등의 패턴을 이해하도록 돕는다. 특히, 텍스트마이닝 기술은 방대한 비정형 정보로부터 의미 있는 정보를 추출하거나 재조직화 함으로, 정보의 발견성을 더욱 용이하게 한다. 시맨틱 검색의 최종 목표는 의사 결정 지원이며, 이를 위해서는 시맨틱 웹 기술에 기계 학습 등의 마이닝 기술이 적용된 시맨틱 마이닝 기술의 확보가 관건이 될 것이다. 향후 5년 내에 시맨틱 마이닝 기술의 발전과 검색 서비스에의 결합은 실질적인 시맨틱 검색 서비스 시스템 출시를 가능하게 할 것이며, 2020년 무렵에는 데이터 지능화를 통한 예측성 수준에 이르게 될 것으로 기대된다.

04.tech_img61.gif



시맨틱 검색 구현 사례

국내에 가장 잘 알려진 구현 사례는 네이트의 시맨틱 검색 서비스일 것이다. 현재는 그 열기가 시들해진 면이 없지 않으나, 시맨틱 검색의 가능성을 제시한 중요 사례 중 하나가 되었다. 네이트 시맨틱 검색은 표 1을 기준으로, 개체 특성에 대한 확장 검색 기능을 제공하고 있는데, 시맨틱 검색 전 영역을 소화해 내지 못한 아쉬움이 크다. 지난 몇 년간 기업 및 공공 서비스에서의 시맨틱 검색 시스템 도입 사례가 급격히 증가하고 있다. 그림 4는 국가기록원과 용인시청의 시맨틱 검색 사례를 보이고 있다. 국가기록원은 ISO/IEC 11179 기반의 시맨틱 MDR을 구현하고 검색 시스템와 연계함으로 시맨틱 검색 체계를 확립하였으며, 용인시청의 경우 민원정보에 대한 온톨로지 구축과 검색 문서를 상호 연결함으로 시맨틱 검색 서비스 체계를 확보하였다. 그 외에 다양한 공공기관에서의 시맨틱 검색 도입이 추친되고 있는데, 향후 그 도입 사례가 크게 늘 것으로 예상된다.

민간 부문에서의 시맨틱 검색 도입은 두 방향으로 진행되고 있다. 하나는 KM, EP 등의 기업 내 업무 시스템에 적용되는 것이고, 두 번째는 스마트폰, 소셜 네트워킹 서비스(SNS) 등 새로운 서비스 환경에서의 개인 맞춤형 정보 및 서비스 추천 서비스로 발전되는 것이다. 그림 5는 기업 내 시맨틱 검색 환경 구현 사례를 보인다. 기존 시스템과 다르게 내부 정보뿐 아니라 외부 정보를 연계 통합하고, 상호 연결함으로 의미기반 검색과 통합 분석을 가능하게 한다. 특히, 검색 결과에 대한 요약과 시각화, 다차원 분석 기능은 기업의 의사결정 비용을 효과적으로 절감할 수 있도록 돕는다. 그림 6은 소셜 네트워크로부터 사용자들의 평판과 여론을 분석하고, 스마트폰 상에서 위치 기반의 정보를 추천하는 어플리케이션인 ‘보따리’와 부산시에서 구축한 지식네트워크 분석, 검색 서비스인 ‘부산지식네트워크’ 서비스 시스템의 사례이다. 보따리는 지역 및 지리정보를 트리플 기반의 지식베이스로 구현하고, SPARQL EndPoint를 통해 모바일 단말과 실시간 연결한다. 또한, 트위터로부터 수집된 사용자 의견으로부터 평판을 분석하고 지역 정보와 연계함으로, 해당 지역의 중요 POI에 대한 정보 추천 서비스를 제공하게 된다. 부산지식네트워크 서비스는 표1의 시맨틱 검색 영역의 상당부분을 포괄하고 있으며, 시맨틱 검색의 대표적 구축 사례로 꼽히고 있다. 논문과 기고문 등을 분석해 전문 지식 네트워크를 도출하고, 이와 관련된 전문가들을 연결, 추천하는 기능을 가지고 있으며, 전문가들 간의 친밀도나 소셜 네트워크를 분석, 보고하는 기능을 제공하고 있다.

05.tech_img62.gif

06.tech_img63.gif



향후 발전 방향

지난 5년간 시맨틱 검색 기술은 연구개발 단계에서 상용화 단계로 빠르게 발전해 왔다. 다양한 시장 도입 사례들은 실용적인 시맨틱 검색 서비스 구현이 가능함을 증명해 보였고, 스마트폰을 통한 모바일 서비스와 소셜 검색 및 분석 시장의 성장은 시맨틱 검색 역할을 더욱 중요하게 만들고 있다. 조만간에 트위터 등을 통해 흐르는 엄청난 양의 실시간 정보를 분석함으로 기업은 고객 목소리를 이해, 시장 경쟁력을 향상시킬 것이고, 정부는 올바른 여론 인식과 정책 입안이 가능해 질 것이다. 그리고는, 시맨틱 검색 기술이 보다 높은 수준의 AI 기술과 접목됨으로, 방대한 데이터 분석과 지능화를 통한 미래 예측과 추론이 가능하게 될 것이다. 멀지 않은 미래에, 방대한 비정형 데이터를 실시간 분석, 지능화하는 플랫폼을 보유한 기업이 나타날 것이며, 구글의 자리를 대치하게 될 것이다. 그러한 세계적 기업이 한국에서 나올 수 있기를 고대해 본다.



About Saltlux Inc

솔트룩스는 기업용 검색솔루션 및 정보 마이닝, 시맨틱 웹, 유비쿼터스 컴퓨팅 등 차세대 웹 및 지식 서비스 전문기업입니다. 정보 마이닝 및 시맨틱 기술 부문에서는 국내 1위 기업으로서의 시장을 확보하고 있으며, 미국 및 유럽의 세계적인 기업 및 연구 단체들과 공동연구 및 협력을 통해 세계적인 기술력을 보유하고 있습니다.



주요사업영역 및 핵심기술

- 핵심기술 : 빅데이터 처리, 분석 마이닝 기술, 시맨틱 기술
- 시맨틱 검색 : 초대용량 시맨틱 검색, 고정밀 텍스트 마이닝, 소셜 검색 및 분석
- 데이터 지능화 : 서비스 개인화, 추천, 상황인지, Geo-Semantic, 지능형 모바일 서비스
- 웹 3.0 : 시맨틱 웹, LOD, 온톨로지, 추론엔진, 소셜 미디어 분석(트랜드, 평판)









출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net

+ Recent posts