오늘 국내 포탈에서 검색과 관련된 일을 하시는 분을 뵈었습니다. 검색을 학문으로 공부하는 입장에서 현업 종사자의 생생한 경험을 들을 수 있는 기회였습니다. 보안상 구체적인 사항을 언급할 수는 없지만, 아직 우리나라 웹 서비스 회사의 기술적인 수준은 세계 수준과 상당한 격차가 있다는 생각이 들었습니다.

우선 검색 모델 개발 및 개선 절차가 체계화되어야 된다는 생각이 들었습니다. 흔히들 구글 검색이 검색어 매칭과 PageRank만을 기반으로 하는 것처럼 생각하시지만, 실제로는 수천개의 Feature가 정교하게 결합된 결과압니다. 이렇게 Feature의 개수가 많아질수록, 각 Feature의 결합은 각각이 검색 결과의 품질에 미치는 영향에 대한 엄밀한 분석을 바탕으로 해야 할 것입니다.

최근 학계에서 각광받고 있는 Learning to Rank 와 같은 기법을 사용하면 사용자의 클릭 등을 바탕으로 최적의 랭킹을 위한 주어진 Feature의 결합 가중치를 자동으로 학습할 수 있습니다. 지속적으로 검색 품질을 모니터링하고, 위와 같은 기법을 활용하여 주어진 Feature에서 최선의 결과를 끌어낼 수 있도록 해야 할 것입니다.

물론 위와 같은 기법의 활용을 위해서는 구글의 MapReduce, 야후!의 Hadoop과 같은 컴퓨팅 클러스터가 구축되어야 할 것입니다. 구글에서 나온 최근 논문 을 보면 구글이 활용하는 자동화된 알고리즘은 대부분 MapReduce연산의 반복으로 구현된다는 것을 알 수 있습니다. 구글이나 야후가 전세계를 상대로 인터넷 서비스를 제공할 수 있는 데에는 이와 같은 기본기가 바탕이 되는 것입니다.

아직 국내 인터넷 서비스는 토종 포털이 압도하고 있지만, 자동화된 알고리즘과 이를 뒷받침하는 컴퓨팅 파워를 갖춘 구글 등의 공세가 만만치 않을 것입니다. 국내 업체는 현지화를 강점으로 내세우고 있지만, 구글 등은 현지화를 넘어 모든 서비스의 개인화 에 도전하고 있습니다. 그것도 사람이 전혀 관여할 필요가 없는 방식으로 말입니다. 한국인 모두를 대상으로 최적화된 랭킹과 자신만을 위한 랭킹 중 어떤 것을 선택하시겠습니까.

이에 더 나아가 외국 업체들은 국경 없는 서비스 제공을 위한 기반 기술 개발에도 열심입니다. 구글이 막대한 투자를 아끼지 않고 있는 기계번역 기술이 어느 수준에 다다르는 순간, 각국 인터넷 업체와 구글간의 힘의 균형이 무너질 것이라는 예측은 지나친가요?