작년부터 검색 서비스 업계의 화두는 '실시간 검색'이었다고 해도 과언이 아닙니다. 검색엔진 빅3(구글, 야후, 빙)에 이어 국내 포탈에서도 실시간 검색 서비스를 제공하고 있습니다. 최근 구글의 카페인 인덱싱 발표를 계기로, 더 신속한(fresh) 결과를 제공하기 위한 경쟁이 더욱 치열해질 것으로 보입니다. 구글의 발표 및 그리고 실제 사용자들의 테스트 결과에 따르면 블로그 및 뉴스 페이지가 업데이트된 후 검색에 표시되기까지 1분도 걸리지 않는다고 합니다.

실시간 검색이야 이미 다 되는 기술인데 뭐가 대수냐고 하실지 모르겠습니다. 하지만, 지난번 네이버의 개편 관련 포스팅에서도 언급했한대로 실시간 검색에 대한 빅3와 국내 포탈의 접근방법은 완전히 다릅니다. 오늘은 실시간 검색과 관련된 연구 결과를 요약해 보겠습니다.

야후! 리서치에서 발표한 최근 연구 논문에 따르면 실시간 검색의 주된 이슈는 1) 질의의 실시간성을 가리는 것 2) 실시간성 질의에 대한 더 나은 결과를 제공하는 것으로 나눌 수 있습니다. 예컨데, 마이클 잭슨의 사망소식이 전해졌을 때 질의어 'michael jackson'에 대해 최신의 권위있는 뉴스 결과를 제공한다면 성공입니다. 

이들은 실시간성 질의의 경우, 갑자기 질의량이 폭증한다던가 최신 뉴스 기사에 등장하는 단어가 사용된다는 등의 특성(feature)을 이용하여 최대 90%의 확률로 실시간 질의를 가려냅니다. 이런 식으로 분류된 실시간성 질의에 대해서는 문서의 시간, 종류, 속보성(hotness)등을 랭킹에 적극 반영합니다. 하지만 실시간 질의의 경우에도 기존에 사용하던 기법이 유효하기에, 기존 검색 모델의 성능을 살리는 동시에 실시간성을 고려하기 위해 이들은 세가지 기계학습 기반의 검색 모델을 제시합니다. 마지막으로, 일반 질의와 실시간 질의 처리에 모두 사용가능한 학습 데이터를 만들기 위해서 이들은 문서의 품질 평가에 일반적인 기준을 번저 적용하고, 나중에 실시간성을 반영하는 방식을 사용합니다.

이처럼 실시간성 질의와 일반 질의를 분리하여 처리하기에, 각각의 유형에 따른 적절한 결과를 보여줄 수 있습니다. 이들의 최신 논문에서는 트위터 등의 SNS를 활용하여 실시간성 질의의 검색 결과를 더욱 향상시키는 결과를 볼 수 있습니다. 이외에, 실시간성 질의가 아닌 경우에도 문서의 업데이트 주기 등을 랭킹에 반영하는 방법이 제안되기도 했습니다. 이번 구글의 발표내용을 살펴보아도, 모든 웹페이지의 변화 내용을 감시할 수는 없기에 페이지의 중요도 및 업데이트 주기를 고려하여 인덱싱의 우선순위를 결정하는 등 실시간 검색 구현을 위한 고려사항이 복잡다단하다는 것을 알 수 있습니다.

이처럼 실시간 질의를 제대로 구현하는 데에는 인덱싱에서 검색 모델과 특성(feature), 그리고 평가에 이르기까지 많은 고려가 필요합니다. 하지만, 국내 포탈에서는 아직 제한된 검색어에 대해 편집된 결과를 제공하는 것으로 보입니다. 하지만 이런 방식으로는 뉴스 속보 등에 관련된 질의에는 대응할 수 있을지 몰라도, 검색어의 대부분을 차지하는 테일(tail - 적은 빈도의) 질의에는 제대로 대응할 수가 없습니다. 검색 엔진의 경쟁력이 사실상 테일에서 결정된다는 점, 그리고 앞으로 검색엔진에 대한 의존도가 증가하면서 질의의 범주도 다양화될 것이라는 점을 감안하면, 이는 올바른 방향이 아니라는 생각입니다. 
신고

티스토리 툴바