최근 구글 검색에 대한 뉴스가 많습니다. 빙(Bing)에서 구글 검색결과를 모방한다는 이야기가 들어가기가 무섭게 JC Penny의 검색엔진최적화(SEO) 결과가 문제가 되었습니다. SEO는 다양한 수단으로 검색엔진 랭킹을 높이려는 행위 및 주체를 가리키는데, 여기에는 검색엔진이 용인하는 방법 (White Hat SEO)과 허용하지 않는 (Black Hat SEO) 방법이 있습니다. 사실 미국에서는 SEO가 산업으로 성장할 만큼 활발한데, JC Penny같은 큰 회사에서 Black Hat SEO를 했기 떄문에 문제가 된 것입니다. 뉴욕타임즈는 이번 SEO를 통해 JC Penny가 얻은 이득을 다음과 같이 추산합니다.
The Keyword Estimator at Google puts the number of searches for “dresses” in the United States at 11.1 million a month, an average based on 12 months of data. So for “dresses” alone, Penney may have been attracting roughly 3.8 million visits every month it showed up as No. 1. Exactly how many of those visits translate into sales, and the size of each sale, only Penney would know.

구글의 반격

제가 주목했던 것은, 여기에 대한 구글의 대응입니다. 우선 JC Penny의 Black Hat SEO 대해 즉각적인 조치를 취한 후, 전체 질의의 12%가 영향을 받을 정도로 대규모 업데이트를 단행하고, 이례적으로 그 내용을 공개했습니다. 그 주된 내용은 (사용자에게) 좋은 웹사이트와 나쁜 웹사이트를 구분할 수 있는 자동 분류기를 만들고, 이 분류 결과를 검색 랭킹에 적극 반영하는 것입니다. 구글이 '좋은 컨텐츠'를 구분하기 위해 사용했다는 기준은 다음과 같습니다.
  • Would you be comfortable giving this site your credit card?
  • Would you be comfortable giving medicine prescribed by this site to your kids?
  • Do you consider this site to be authoritative?
  • Would it be okay if this was in a magazine?
  • Does this site have excessive ads?
위 목록을 보면, 이번 업데이트가 단지 '스팸'을 가려내기 위함이 아니라, 웹사이트의 품질을 전반적으로 랭킹에 반영하기 위한 시도라는 것이 분명합니다. 그 결과로 주요 컨텐츠 팜 (퍼담기 등을 통해 불량 컨텐츠를 대량으로 생산하는 사이트) 의 랭킹은 심각한 타격을 입고, Times, CNN, Wikipedia 등 양질의 컨텐츠를 보유한 사이트의 랭킹이 올라갔다고 합니다. 워낙 광법위한 변화라 대부분의 웹사이트에서 이에 대한 대응책을 마련하고 있다고 합니다. 

검색엔진과 정보 생태계

이번 사건은 구글이라는 단일 검색엔진이 인터넷 정보 생태계 전반에 갖는 막대한 영향력을 다시금 환기시킵니다. 그리고 그들이 자신의 힘을 남용하지 않고 있다는 것을 보여줍니다. 이와 같은 대규모 업데이트의 내용을 이례적으로 공개한 것은 웹사이트 운영자들에게 구글 랭킹을 높이기 위해 해야할 일을 주지시키기 위함일 것입니다. 즉, 구글은 공권력을 동원하지 않고도 웹 퍼블리셔들이 더 유용한 컨텐츠를 만들도록 유도하는 것입니다. 구글에서 Web Spam 퇴치를 담당하는 Matt Cutts에 대한 묘사는 이러한 구글의 태도를 대변합니다.
Mr. Cutts sounded remarkably upbeat and unperturbed during this conversation, which was a surprise given that we were discussing a large, sustained effort to snooker his employer. Asked about his zenlike calm, he said the company strives not to act out of anger. You get the sense that Mr. Cutts and his colleagues are acutely aware of the singular power they wield as judge, jury and appeals panel, and they’re eager to project an air of maturity and judiciousness.
이처럼 정보나 상거래가 인터넷으로 집중되는 오늘날 검색엔진의 결과는 한 회사의 비즈니스 도구 이상의 의미를 띕니다. 모든 정보에 대한 접근성과 우선순위를 결정한다는 측면에서, 검색엔진의 역할은 정보 세상의 도로망을 까는 일에 비유할 수도 있을 것 같습니다.  예전 글에도 썼지만, 우리 나라 검색 회사들도 더 나은 인터넷 환경을 만들 수 있도록 힘써 주었으면 하는 바램입니다. 

추신 : 

구글이 사용한 것과 같이 문서 품질을 웹 검색결과에 반영하는 방법에 관한 논문이 이번에 저희 연구실에서 출판되어 소개합니다. 올해 2월 WSDM (Web Search and Data Mining) 컨퍼런스에서 발표된 따끈따끈한 논문입니다 ;)