최근 구글 검색에 대한 뉴스가 많습니다. 빙(Bing)에서 구글 검색결과를 모방한다는 이야기가 들어가기가 무섭게 JC Penny의 검색엔진최적화(SEO) 결과가 문제가 되었습니다. SEO는 다양한 수단으로 검색엔진 랭킹을 높이려는 행위 및 주체를 가리키는데, 여기에는 검색엔진이 용인하는 방법 (White Hat SEO)과 허용하지 않는 (Black Hat SEO) 방법이 있습니다. 사실 미국에서는 SEO가 산업으로 성장할 만큼 활발한데, JC Penny같은 큰 회사에서 Black Hat SEO를 했기 떄문에 문제가 된 것입니다. 뉴욕타임즈는 이번 SEO를 통해 JC Penny가 얻은 이득을 다음과 같이 추산합니다.
The Keyword Estimator at Google puts the number of searches for “dresses” in the United States at 11.1 million a month, an average based on 12 months of data. So for “dresses” alone, Penney may have been attracting roughly 3.8 million visits every month it showed up as No. 1. Exactly how many of those visits translate into sales, and the size of each sale, only Penney would know.

구글의 반격

제가 주목했던 것은, 여기에 대한 구글의 대응입니다. 우선 JC Penny의 Black Hat SEO 대해 즉각적인 조치를 취한 후, 전체 질의의 12%가 영향을 받을 정도로 대규모 업데이트를 단행하고, 이례적으로 그 내용을 공개했습니다. 그 주된 내용은 (사용자에게) 좋은 웹사이트와 나쁜 웹사이트를 구분할 수 있는 자동 분류기를 만들고, 이 분류 결과를 검색 랭킹에 적극 반영하는 것입니다. 구글이 '좋은 컨텐츠'를 구분하기 위해 사용했다는 기준은 다음과 같습니다.
  • Would you be comfortable giving this site your credit card?
  • Would you be comfortable giving medicine prescribed by this site to your kids?
  • Do you consider this site to be authoritative?
  • Would it be okay if this was in a magazine?
  • Does this site have excessive ads?
위 목록을 보면, 이번 업데이트가 단지 '스팸'을 가려내기 위함이 아니라, 웹사이트의 품질을 전반적으로 랭킹에 반영하기 위한 시도라는 것이 분명합니다. 그 결과로 주요 컨텐츠 팜 (퍼담기 등을 통해 불량 컨텐츠를 대량으로 생산하는 사이트) 의 랭킹은 심각한 타격을 입고, Times, CNN, Wikipedia 등 양질의 컨텐츠를 보유한 사이트의 랭킹이 올라갔다고 합니다. 워낙 광법위한 변화라 대부분의 웹사이트에서 이에 대한 대응책을 마련하고 있다고 합니다. 

검색엔진과 정보 생태계

이번 사건은 구글이라는 단일 검색엔진이 인터넷 정보 생태계 전반에 갖는 막대한 영향력을 다시금 환기시킵니다. 그리고 그들이 자신의 힘을 남용하지 않고 있다는 것을 보여줍니다. 이와 같은 대규모 업데이트의 내용을 이례적으로 공개한 것은 웹사이트 운영자들에게 구글 랭킹을 높이기 위해 해야할 일을 주지시키기 위함일 것입니다. 즉, 구글은 공권력을 동원하지 않고도 웹 퍼블리셔들이 더 유용한 컨텐츠를 만들도록 유도하는 것입니다. 구글에서 Web Spam 퇴치를 담당하는 Matt Cutts에 대한 묘사는 이러한 구글의 태도를 대변합니다.
Mr. Cutts sounded remarkably upbeat and unperturbed during this conversation, which was a surprise given that we were discussing a large, sustained effort to snooker his employer. Asked about his zenlike calm, he said the company strives not to act out of anger. You get the sense that Mr. Cutts and his colleagues are acutely aware of the singular power they wield as judge, jury and appeals panel, and they’re eager to project an air of maturity and judiciousness.
이처럼 정보나 상거래가 인터넷으로 집중되는 오늘날 검색엔진의 결과는 한 회사의 비즈니스 도구 이상의 의미를 띕니다. 모든 정보에 대한 접근성과 우선순위를 결정한다는 측면에서, 검색엔진의 역할은 정보 세상의 도로망을 까는 일에 비유할 수도 있을 것 같습니다.  예전 글에도 썼지만, 우리 나라 검색 회사들도 더 나은 인터넷 환경을 만들 수 있도록 힘써 주었으면 하는 바램입니다. 

추신 : 

구글이 사용한 것과 같이 문서 품질을 웹 검색결과에 반영하는 방법에 관한 논문이 이번에 저희 연구실에서 출판되어 소개합니다. 올해 2월 WSDM (Web Search and Data Mining) 컨퍼런스에서 발표된 따끈따끈한 논문입니다 ;)
예전에 구글의 진짜 경쟁력은 유연성이라는 글을 쓴 적이 있는데, 최근에 데이터에 기반한 지속적인 혁신을 가능하게 하는 구글의 실험 인프라에 대한 논문이 나왔습니다. 예전 글에서 "On most Google queries, you’re actually in multiple control or experimental groups simultaneously"라는 구글 엔지니어의 말을 인용했었는데, 이 논문에서는 구체적으로 어떤 기술이 그런 실험을 가능하게 하는지를 소개하고 있습니다. 

이 논문에서 소개하는 핵심 개념이 Multi-factorial Experimental Design입니다. 한번에 한가지 요인(Factor 혹은 Parameter)을 통제하는 일반적인 실험설계와 달리, Multi-factorial Experimental Design에서는 한번에 여러 요인을 동시에 변화시키며 결과를 관찰합니다. 물론 변화시키는 요인 간에는 서로 간섭이 없는 독립성이 보장된다는 조건이 붙지만, 한 데이터에 대해 N가지의 요인을 동시에 바꿀 수 있기 때문에 실험에 필요한 데이터의 양이 1/N로 줄어든다는 장점이 있습니다. 세계에서 가장 많은 검색 데이터를 가진 구글이 데이터를 아끼기 위해 이런 기법을 도입하고 있다는 점이 놀랍습니다. 저자들의 설명을 들어봅시다.

The solution we propose in this paper is to partition the parameters into subsets, and each subset contains parameters that cannot be varied independently of each other. A subset is associated with a layer that contains experiments, and traffic diversion into experi- ments in different layers is orthogonal. Each query here would be in N experiments, where N equals the number of layers.

이들이 소개하는 구글의 실험 인프라는 단지 N개의 실험을 동시에 진행하는 수준에 그치지 않습니다. 실험을 위해 분리된 트레픽의 일부를 본 논문에서는 도메인(domain)으로, 파라메터의 일부를 레이어(layer)로 정의하는데, 도메인은 레이어를 그리고 레이어는 서브 도메인를 포함할 수 있습니다. 즉, 한 실험 내부에서 좀더 세분화된 실험을 진행할 수 있는 것입니다. 

또한, 성공적인 실험을 거쳐 런칭에 들어가는 기능에 대해서도 같은 인프라를 사용한다는 점도 흥미롭습니다. 즉, 런칭에 사용할 트레픽을 따로 분리하는 대신에, 런칭될 기능을 일종의 기본값으로 정의하고, 실험 설계에 따라 그 값을 덮어쓰도록(override) 하는 것입니다. 이렇게 하면 다양한 실험에 영향을 끼치지 않고 특정 기능을 서서히 런칭할 수 있습니다. 

Defining launch layers in this way allows us to gradually roll out changes to all users without interfering with existing experiments and to keep track of these roll-outs in a standardized way. The general usage of launch layers is to create a new launch layer for each launched fea- ture and to delete that layer when the feature is fully rolled out (and the new parameter values are rolled into the defaults). Finally, because experiments in launch layers are generally larger, they can be used to test for interactions between features.

아래 다이어그램은 위에서 설명한 실험 인프라의 사례를 보여줍니다. 맨 위에 모든 트레픽에 걸쳐 파라메터 일부에 대한 기본값을 제공하는 런치 레이어가 있고, 그 아래 트레픽 일부에 대해 다양한 파라메터 조합을 테스트하는 실험 레이어가 있습니다. 위에서 설명한대로 실험 레이어는 여러 도메인으로 나뉘고, 각 도메인의 레이어는 또다시 도메인과 레이어를 포함할 수 있는 구조로 되어있습니다.

이 논문은 이밖에도 구글의 실험 인프라에 대한 여러 디테일을 포함하고 있습니다. 그중 흥미로웠던 점은 CTR (click-through rate)과 같은 지표가 표준화된 형태로, 그것도 실시간으로 실험자에게 제공된다는 점입니다. 이처럼 어떤 실험을 누가 하더라도 일관성 있는 결과를 빠르게 알 수 있기 때문에, 여러 팀에서 작업한 결과물이 투명하게 평가되고 실 서비스에 즉시 반영될 것입니다. 저자들은 마지막으로 여기에 소개한 인프라가 구글의 혁신을 가속화한다는 수치적 결과를 소개합니다.



작년에 Bing에서 인턴을 하면서도 느꼈지만, 검색이라는 대용량 서비스를 가능하게 하는 것은 실제 서비스에 사용되는 프로덕션 시스템 만큼이나 이를 뒷받침하는 인프라라는 생각을 해 봅니다. 그리고 이 논문은 구글과 같은 큰 조직에서 어떻게 데이터에 근거한 신속한 의사결정을 가능하게 하는지를 실증적으로 보여줍니다.  최근 구글도 관료화되었다는 말이 많이 나오지만, 적어도 이 논문을 읽어보면 윗선에서 떨어지는 명령에 의한 일방적인 의사결정이나, 조직간의 정치적 알력이 기업의 의사결정에 작용할 여지는 별로 없어 보입니다.

맺음말

많은 사람들이 구글의 '현재 모습'을 부러워합니다. 하지만 이 논문에서 알 수 있듯이 구글의 진짜 힘은 혁신의 결과물이 아니라, 혁신을 지속하고 가속화하는 이러한 인프라일 것입니다. 이 논문에 공개된 내용을 따라한다고 해도, 그것이 구글의 최신(bleeding edge) 기술이라고 믿기는 어렵고, 그 사이에 그들은 또 저만치 달아나 있을 것입니다. 마이크로소프트의 실험 인프라도 이에 결코 뒤지지 않습니다. 요즘 많이 들리는 말입니다만, 조직 전체에 혁신을 체질화하는것만이 이런 기업과 경쟁할 수 있는 역량을 갖추는 길이라는 생각이 듭니다. 물론 여기서의 혁신은 일회성의 구호가 아니라, 지속적으로 데이터에 근거한 신속한 의사결정을 내릴 수 있는 문화와 인프라일 것입니다. 

이번에 iPad에 관한 기사 중 TIME지의 Stephen Fry가 iPad 디자인 및 개발 담당 Senior VP, 그리고 스티브 잡스를 모두 인터뷰한 기사를 읽었습니다. 저도 맥북과 iPod Touch를 쓰고 있으며 주변사람(특히 개발자)들에게 애플 제품을 많이 권하는 편이지만, 이 기사에 실린 iPad의 개발철학을 듣고서는 애플이 진정 '컴퓨팅의 미래'를 보고있다고 느꼈습니다. 얼마전 구글의 경쟁력에 관한 글을 썼는데, 오늘은 애플의 경쟁력을 '철학'의 측면에서 분석합니다.


기능이 아닌 경험을 제공한다

우선 애플의 디자인담당 수석부사장인 Jonathan Ive는 iPad의 본질이 기능이 아닌 경험이며, 들어간 기능보다 빠진 기능들이 더 자랑스럽다고 말합니다. 보통은 더 많은 기능을 미덕으로 생각하는데, iMac, iPod, iPhone, iPad를 모두 디자인했다는 그의 말은 남다릅니다. 

제품의 가치가 개별 기능의 총합에 비례하지 않으며, '경험'의 품질을 떨어뜨리는 기능이라면 빼는 편이 낫다는 이야기입니다. 애플이 자사의 품질기준에 어긋나는 앱을 엄격한 심사로 가려내는 것이나, 아이폰 OS에 자칫 기기의 성능을 현저하게 떨어뜨릴 수 있는 멀티태스팅을 아직 허용하지 않는 것은 이런 철학에 기초한 의사결정입니다. 

"As for everything else, it's not about the features — it's about the experience. You just have to try it to see what I mean."

"In many ways, it's the things that are not there that we are most proud of," he tells me. 

"For us, it is all about refining and refining until it seems like there's nothing between the user and the content they are interacting with."

위의 밑줄친 표현이 명확하게 전달하듯, 기능이 아닌 경험이라는 말의 의미는 사용자가 수단(제품)을 의식조차 하지 않고 목표(컨텐츠)를 달성할 수 있도록 하는 것입니다.  이처럼 우리 몸의 일부인 것 처럼 그 존재 자체를 망각하게 하는 것은 가히 도구(tool)로서 도달할 수 있는 궁극의 경지가 아닐까요.


이성보다 감성에 호소한다

저자는 애플의 또다른 성공비결이 이성보다 감성에 호소하는데 있다고 말합니다. 감성은 이성적 판단이 시작되기도 전에 결론을 내놓기에 사람들이 애플 제품에 끌릴 수 밖에 없다는 것입니다. 다른 회사와 달리 애플의 제품에 광적인 팬이 많다는 것은 이러한 논리를 뒷받침합니다. 

Apple's success has been founded on consumer products that address this side of us: their products make users smile as they reach forward to manipulate, touch, fondle, slide, tweak, pinch, prod and stroke

I had been prepared for a smooth feel, for a bright screen and the "immersive" experience everyone had promised. I was not prepared, though, for how instant the relationship I formed with the device would be

But for me, my iPad is like a gun lobbyist's rifle: the only way you will take it from me is to prise it from my cold, dead hands. 

위에서 저자는 iPad를 본 순간 '관계'가 시작되었다고 말합니다. 이처럼 설득하려고 들지 않고 감동을 주는 제품이라면 성공할 수밖에 없지 않을까요. 감동을 받은 사용자는 어떤 이유를 들어서라도 자신이 그 제품을 좋아하는 이유를 정당화시킬테니까요. 그리고 주변 사람에게 그 감동을 전하려고 노력할테니까요. 

독립 제품이 아닌 플렛폼

예전 글에서도 지적했지만, iPod에서 출발하는 애플 모바일 기기의 기본적인 철학은 제품을 기반으로 하는 플렛폼을 개발하고 육성하는 것입니다. 일단 생태계가 형성되고 나면 돈을 들여 광고하거나 컨턴츠를 개발할 필요도 없으며, 고객 충성도 역시 보장되기 때문입니다. iPad에 대한 유명 출판사 사장의 말을 들어봅시다. 

"it gives control back to us and allows us to discover how the market is developing. Frankly, when I saw the iPad, it was like an epiphany ... This has to be the future of publishing. You'll know if you've spent any time with one."

이처럼 출판사들은 저가 공급을 강요하는 아마존보다는 가격 결정권을 부여하는 애플에 더 호의적입니다. 컨텐츠 기기의 경쟁력이 사용가능한 컨텐츠의 양과 질에 좌우된다는 점을 감안하면 iPad는 아마존의 아성인 전자책 시장을 상당부분 잠식할 수 있을 것 같습니다. 


마치며

흔히 하이테크 회사의 경쟁력은 기술에서 온다고 생각합니다. 애플은 기술 측면에서도 세계를 선도하는 회사이지만, 애플의 경쟁력을 완성하는 것인 이러한 철학의 차이가 아닐까 합니다. 어차피 어떤 회사도 모든 기술을 스스로 개발할 수는 없다는 점을 감안하면, 어떤 기술을 가졌냐보다는 보유한 기술을 어떻게 활용하느냐가 더 중요할 것이기 때문입니다.

iPad 발표시에 스티브 잡스는 애플이 인문학(Liberal Arts)과 기술의 교차점에 서있는 회사라고 말했습니다. 이는 애플이 기술 만큼이나 그 기술을 사용하는 주체는 따뜻한 피가 흐르는 사람임을 이해하고 있다는 점을 보여줍니다. 우리나라에도 이처럼 뚜렷한 철학을 가지고 시장을 선도하는 기업이 나오기를 기원해봅니다. 

요즘 우리나라 인터넷에 대한 걱정들이 많습니다. 얼마전 저도 한국 인터넷을 술자리에 비유한 글을 썼는데, '한국 인터넷에서 잘못 끼워진 첫 번째 단추, 네이버'라는 제목의 글이 화제가 되고 있습니다. 글에 언급된 검색 성능에 대한 비교가 100% 공정하다고 생각하지는 않지만 (검색 결과의 바탕이 되는 컨텐츠 자체가 다르기에), 적어도 네이버로 대표되는 포탈의 비즈니스 모델과 사회적 책임에 대한 문제제기는 탁월합니다. 

여기서는 이 글을 읽으며 떠오른 몇가지 의문을 정리하고 검색 연구자로서 나름의 대안을 제시해보고자 합니다. 이후에 언급한 '네이버'는 한국의 포탈을 대표하는 개념으로 이해하시면 되겠습니다.

네이버는 evil인가?

예전에 iPad에 관한 글에서 플렛폼 전략을 언급했는데, 네이버는 사용자가 컨텐츠를 생산하고 배포할 수 있는 환경을 제공한다는 측면에서 플렛폼 기업입니다.  여기까지는 탓할 일이 아닙니다. 네이버의 문제는 플렛폼 기업으로서의 역할에 있습니다.

우선 첫번째 문제는 인터넷이라는 개방된 플렛폼 안에 외부와의 소통이 차단된 닫힌 플렛폼을 만들었다는 점입니다. 그런데 네이버가 우리나라 인터넷 트레픽의 과반수를 차지하는 관계로 우리나라 인터넷 전체가 외부에 대해 닫힌 결과를 낳았습니다. 네이버에서 외부 글을 검색하거나 외부에서 네이버의 컨텐츠를 찾는 것은 매우 어렵습니다. 반면에 구글은 인터넷이라는 플렛폼의 사용성을 높이는 서비스를 제공한다는 측면에서 네이버와 구별됩니다. 

두번째 문제는 플렛폼 기업으로서 도덕성을 지키지 못했다는 점입니다. 구글의 Don't be evil 모토나, 혹은 최근 타산지석이 되고 있는 애플의 앱스토어 심사 문제에서 알 수 있듯이 플렛폼이라는 생태계를 운영하는 주체는 모든 참여자에게 (심지어는 경쟁 기업에게까지도) 공정성을 유지해야 하며, 이를 어겼을 경우 엄청난 비난을 감수해야 합니다. 플렛폼 운영자로서의 지위와 수익은 참여자들이 만들어주는 것이기 때문입니다. 

이런 측면에서 저는 포탈이 변해야 한다고 생각합니다. 예전 글에서 언급했듯이 포탈은 한국 인터넷을 광장이 아닌 술자리로 만들고 있습니다. 이처럼 몇개의 닫힌 포탈이 대부분의 웹 트레픽을  과점하는 구도가 지속되고, 더욱이 포탈 내에서도 제대로 된 컨텐츠를 생산할 수 있는 인센티브가 주어지지 않는다면 우리나라 인터넷 컨텐츠의 질적 저하는 막을 수 없을 것입니다. 인터넷이 갖는 지식 정보의 공유 플렛폼으로서의 기능을 감안하면 이는 장기적으로 국가 경쟁력의 문제입니다. 

글 하나를 찾거나 등록하기 위해 몇개의 사이트를 뒤져야 하고, 막상 검색 결과조차 광고로 도배되어 있다면 누구를 탓하겠습니까. 초기화면에 선정적 기사로 가득하다면, 공들여 쓴 글이나 비디오가 갑자기 삭제되기라도 한다면 어떤 느낌일까요. 

네이버의 전략은 지속 가능(sustainable)한가?

기업이 사회적 책임과 수익성은 별개의 문제이기에, 만약 사회적으로 최선이 아닐지라도 수익을 낼 수 있다면 개별 기업으로서는 합리적인 선택일지도 모릅니다. 하지만 네이버의 전략이 장기적인 생존을 보장할 것이라고 생각하기는 힘듭니다. 그 이유는 앞서 언급한 플렛폼 기업으로서의 특성과 관련이 있습니다.

양질의 컨텐츠를 공급할 수 있는 CP(e.g. 파워블로거)의 입장을 상상해봅시다. 그들에게 가장 중요한 것은 자신의 컨텐츠에 대한 통제와 소유권입니다. 이런 사람들이 포탈 블로그나 지식인에 종속되기를 원하지는 않을 것이며, 따라서 포탈은 
현재 상태로는 좋은 컨텐츠를 확보하기 어렵습니다. 또한 인터넷 시대에 검색되지 않는 정보는 없는 것이나 마찬가지인데, 검색 광고의 남용과 기술적인 한계로 말미암아 존재하는 컨텐츠를 효과적으로 제공하는 것도 어려워 보입니다. 

한때 인터넷 그 자체였던 야후!의 사례를 들어봅시다. 야후!는 지금도 단일 웹사이트로는 인터넷상에서 가장 방대한 컨텐츠를 자랑하지만, 결국 구글에 검색 뿐만 아니라 인터넷의 관문으로서의 주도권을 내주었습니다. 스스로를 미디어 회사로 규정한 야후!는  막대한 양의 자체 컨텐츠와 편집 노하우를 경쟁력으로 내세웠지만, 전세계의 컨텐츠를 모두 모아 원클릭에 제공하는 구글 검색에는 당할 수 없었던 것입니다.

당장 시장 판도가 바뀌지는 않겠지만 추세는 명확해 보입니다. 컨텐츠의 이탈이 가속화되고 모바일 웹의 대중화로  가벼운 검색엔진이 각광받게 되며, 특히 구글에서 막대한 투자를 지속하고 있는 기계번역 기술이 사용 가능한 수준으로 좋아진다면, 상황은 급속도로 달라질 수 있습니다. 검색엔진을 바꾸는데는 단 5초도 걸리지 않는다는 사실을 생각해봅시다.

네이버는 어떻게 살아남을 수 있을까?

만약 네이버의 현재 전략이 장기적인 생존을 보장하지 못한다면 대안은 무엇일까요. 당장 모든 컨텐츠를 외부에 개방하고 초기화면을 구글처럼 바꿔야 할까요?  특히 이부분은 검색 기술의 비즈니스적 가치와 관련되기에 검색 연구자로서 흥미있는 주제입니다. 

얼마전에 언급했듯이 구글의 검색기술은 하루아침에 쌓인 것이 아닙니다. 그들은 10년째 끊임없는 혁신을 지속하고 있으며, 검색 및 기타 서비스를 위해 하드웨어와 운영체제에서 시작하는 풀스택을 만들었습니다. 그리고 이 모든 것을 세계 최고의 엔지니어와 과학자들이 주도하고 있습니다. 심지어 마이크로소프트가 심혈을 기울여 내놓은 Bing Search조차 아직 구글의 아성에 아직 별다른 상처를 내지 못하고 있습니다. 

이런 회사와 경쟁하기 위해서는 정면 승부를 피하면서 고유의 경쟁력을 확보해야 할 것입니다. 우선, 자사의 비교우위는 지켜가야 할 것입니다. 예컨데 네이버의 현재 경쟁력은 컨텐츠에 있는데 이를 구글 검색에 그대로 노출시키는 것은 무기를 버리고 투항하는 것과 다름없을 것입니다. 우선 외부 컨텐츠에 대한 검색을 강화하면서 자체 컨텐츠를 서서히 공개하는 편이 나아 보입니다. 이런 측면에서 포탈이 자체 데이터 공개를 꺼리는 이유를 이해못할바는 아닙니다.

어쨌든 컨텐츠 개방은 피할 수 없을 것이며, 그 이후에도 경쟁력을 유지하기 위해서는 검색 기술을 지속적으로 확보해야 합니다. 앞서 구글의 막강한 경쟁력을 언급했지만 검색 알고리즘(PageRank)과 대용량 서비스를 위한 기반 기술(Map-Reduce / BigTable)은 논문이나 오픈소스 등의 형태로 공개된 부분도 많습니다. 또한 네이버가 보유한 컨텐츠에 대해서는 자체 DB의 Metadata나 사용자 Log를 검색을 위한 Feature나 랭킹 학습을 위한 데이터로 활용할 수 있기에 여전히 외부 검색엔진에 대해서는 훨씬 유리하다고 볼 수 있습니다.

아직 기대만큼의 성공은 아니겠지만, 구글과 경쟁하기 위한 마이크로소프트 Bing Search의 전략은 시사하는 바가 큽니다. 우선 Search Engine대신에 Decision Engine이라는 캐치프레이즈를 내걸고, 구글이 상대적으로 취약한 여행이나 쇼핑 부분을 집중 흥보했습니다. 검색 품질을 획기적으로 개선하는 한편 구글이 상대적으로 취약한 인터페이스 측면에서도 여러가지 혁신을 이루었습니다. 이런 전략에 컨텐츠 오너로서의 장점과 한국 유저에 대한 이해를 결합한다면 승산이 있지 않을까요.

마치며

삼성전자와 iPad에 관한 글에서 언급했지만, 모든 것이 모든 것과 연결되는 시대에 문호를 닫고 공정한 룰을 따르지 않는 것은 근시안적인 전략입니다. 대한민국 인터넷 사용자로서 포탈의 변화를 기대해봅니다. 

이번 달 Wired에 실린 구글의 검색 품질에 관한 기사입니다. 수많은 도전에도 불구하고 구글의 검색 품질은 따라잡기 힘들 것이라고 전망하고 있군요. 그리고 이를 뒷받침하는 핵심 역량은 유연성이라고 지적합니다. 경쟁사에서 새로운 기술을 선보여도 구글은 곧 이를 자사의 검색 알고리즘에 통합시킬 수 있을 테니까요. 저자는 이렇게 결론짓고 있습니다.
Still, even if there is such a shift, Google’s algorithms will probably be able to incorporate that, too. That’s why Google is such a fearsome competitor; it has built a machine nimble enough to absorb almost any approach that threatens it — all while returning high-quality results that its competitors can’t match.
물론 이는 말처럼 쉬운 일이 아닙니다. 수백개의 속성(feature)의 조합으로 이루어지는 검색 알고리즘을 잘못 고쳤다가는 그동안 쌓아올린 향상이 모두 무너질 수도 있기 때문이죠. 말하자면 검색은 균형의 예술(balancing act)인 것입니다. 구글의 검색 책임자인 Amit Sighal의 말을 들어봅시다.
Throughout its history, Google has devised ways of adding more signals, all without disrupting its users’ core experience. Every couple of years there’s a major change in the system — sort of equivalent to a new version of Windows — that’s a big deal in Mountain View but not discussed publicly. “Our job is to basically change the engines on a plane that is flying at 1,000 kilometers an hour, 30,000 feet above Earth,” Singhal says.
운항중인 항공기의 엔진을 고치는 일이라 -- 실감나는 비유입니다. 그리고 이정도 규모와 복잡성을 지닌 시스템을 튜닝하는 것은 과학에 가깝습니다. 더이상 '감'에 의존하는 것이 불가능하기 때문입니다. 이를 잘 아는 구글은 입력되는 모든 쿼리를 하나 이상의 실험을 위해 활용한다고 합니다.
 Every time engineers want to test a tweak, they run the new algorithm on a tiny percentage of random users, letting the rest of the site’s searchers serve as a massive control group. There are so many changes to measure that Google has discarded the traditional scientific nostrum that only one experiment should be conducted at a time. “On most Google queries, you’re actually in multiple control or experimental groups simultaneously,” says search quality engineer Patrick Riley.
인터넷 검색과 같은 Winner-takes-all Market에서 독보적인 1위를 추격하는 것은 어려운 일입니다. 특히, 이처럼 선두가 방심하고 있지 않다면 더욱 그렇습니다. 흔히 구글 검색의 품질은 PageRank에 기인한 것으로 알려져 있지만, 그들의 진짜 경쟁력은 끊임없이 바뀌는 환경에 적응할 수 있는 능력, 이를 뒷받침하는 실험 인프라와 노하우일 것입니다.

또한, 이 기사는 지난 10년간 구글이 선보인 검색 기술상의 혁신과 구글 검색이 경쟁사에 비해 나은 점을 구체적인 질의(query)를 들어 설명하고 있습니다. 예컨데, 구글은 'new york', 'new york times', 'new york times square'가 모두 다른 대상을 가리키는 질의라는 사실을 알아냅니다. 기사를 좀더 읽어보시면, 구글 역시 문서보다는 사용자의 질의를 좀더 잘 이해하는 쪽에 연구 초점을 맞추고 있다는 것을 알 수 있습니다. 예전에 이곳에 올린 검색 연구의 흐름에 관한 글과 비교해 보시면 흥미로울 것 같습니다. 

원본

한국 인터넷은 술자리다

검색산업동향 : 2010. 2. 23. 13:07   By LiFiDeA
주로 연구 목적으로 인터넷을 사용하다가 최근 블로깅을 재개하면서 우리나라 인터넷을 많이 사용하게 되었습니다. 처음에는 단지 제가 익숙하던 인터넷과 많이 다르다는 느낌이었지만, 점차 그 차이가 명확하게 다가왔습니다. 지나친 일반화의 오류를 감수하더라도 이렇게 요약해 보렵니다. 
(미국의) Internet이 광장이라면 우리나라의 인터넷은 술자리입니다. 
광장은 열린 공간에서 모든 사람이 자유롭게 서로를 바라보며 의사를 교환하는 상황을 가리킵니다. 술자리는 특정 호스트에 의해 제공되는 닫힌 공간에서 이루어지는 제한된 참가자들간의 소통을 상징합니다. 물론 광장에서 나누는 대화의 내용은 술자리의 그것과는 사뭇 다르리라 짐작할 수 있습니다. 

똑같은 TCP/IP망에 HTTP프로토콜을 사용하는 인터넷의 특성이 이렇게 다른 데에는 여러 원인이 있을 것입니다. 물론 근본적으로 문화가 다릅니다. 미국은 개인 중심의 사회이며, 모임의 장소도 주로 집인 경우가 많습니다. 하지만 한국은 아직도 개인에 대한 집단의 영향략이 강한 곳입니다. 게다가 (저를 포함하여) 우리나라 사람들은 '모임'을 참 좋아합니다. '자기'가 중심이 되는 블로그보다는 싸이월드, 포탈 게시판이 좀더 성향에 맞을지도 모르겠습니다. 

하지만, 우리나라 인터넷의 특성을 규정하는 데에는 포탈의 역할을 빼놓을 수 없습니다. 아래 표에 간단히 정리한대로 포탈은 인터넷의 주도권을 쥐고 (우리나라에서 인터넷을 한다는 것은 네이버나 다음을 한다는 것과 같습니다) 개인이 생산한 컨텐츠를 편집하고 출판합니다. 그 과정에서 운영방침에 맞지 않는 컨텐츠가 걸러지기도 하고 랭킹도 결정됩니다. 개인이 블로그나 포럼 등에 올린 컨텐츠가 랭킹 알고리즘에 의해 서열화되는 미국과는 매우 다른 모델입니다.

  인터넷 Internet 
주도권 네이버 / 다음 / 기타 분야별 포탈 (e.g. 해커스) 구글 /  블로그
컨텐츠 생산 개인이 생산 개인이 생산
컨텐츠 유통 포탈이 편집 & 출판  개인이 편집 & 출판 
컨텐츠 성격 수다 / 인신공격이 주 정보 교환 / 토론이 주
요약 닫힌 플렛폼 (Splinternet)  / 편집자 중심 열린 플렛폼 / 알고리즘 중심 

재미있는 것은 이런 컨텐츠 유통 과정의 차이가 컨텐츠의 성격에 미치는 영향입니다. 여러번 사회문제가 되었을 정도로 우리나라 인터넷(주로 포탈)에서 생산/소비되는 컨텐츠의 질에는 많은 문제가 있습니다. 건설적인 토론보다는 수다와 인신공격이 주를 이룹니다. 반면, Internet의 컨텐츠는 정보 및 의견 교환이 주를 이룹니다. 술자리와 광장이라는 비유가 여기서도 유효합니다. 반면, 우리나라 인터넷에서도 (주로 포탈 밖) 블로그의 컨텐츠는 품질면에서 외국에 견줄만 합니다. 

마셜 멕루한의 말을 빌지 않더라도 미디어가 메시지에 미치는 영향은 지대합니다. 다음 아고라등의 포탈에서는 제한된 카테고리(교육 / 정치 / 문화 / 등등)에 나이 / 계층 구별도 없이 전 국민이 여과되지 않은 의견을 쏟아내고, 이는 다시 답글이라는 형태로 확대재생산됩니다. 많은 서비스에 '인기글' 시스템이 있지만, 이 역시 다양한 글을 골고루 노출시키는 알고리즘의 부재로 일단 인기글에 올라간 글은 품질에 관계없이 계속 남아있는 폐해가 있습니다. 결과적으로 대부분의 포탈 게시판은 대부분 잡답 수준의 컨텐츠로 채워지고 있으며, 좋은 글이 있어도 발견되기 어려운 탓에 정보원으로서의 가치가 낮습니다.

포탈 측에서는 '적어도 사용자들이 모여 소통할 공간'을 제공하지 않았느냐고 항변할지도 모릅니다. 하지만, 이미 사회의 주도적인 커뮤니케이션 채널이 된 인터넷을 장악하고 있는 주체로서, 건전한 논의를 유도해야할 사회적 책임을 면하기 어렵습니다. 외부 검색엔진에 대한 컨텐츠 비공개 / 임의적인 서비스 중단 및 변경 / 공익보다는 자사의 이익을 위한 편집권 남용 등으로 포탈은 많은 비난에 직면하고 있습니다.

구글이 'Don't be evil'이라는 모토를 사용하는 것은 자사의 서비스가 가진 사회적 영향력을 남용하지 않겠다는 의지의 표현입니다. 포탈이 단기적인 트레픽 유지에 급급하는 대신, 더 넓은 안목에서 사용자가 좋은 컨텐츠를 만들고 폭넓게 공유할 수 있는 플렛폼을 제공한다면 장기적으로는 영리 추구과 사회적인 책임이라는 두마리 토끼를 잡을 수 있을 것입니다. 너무 순진한 생각일까요?
요즘 어디서나 iPad이야기입니다. 주로 개발(hacking)용으로 컴퓨터를 쓰는 저는 결국 베일을 벗은 Apple Tablet이 범용 컴퓨터가 아니라는 사실에 실망했지만, 갈수록 인터넷으로 접할 수 있는 미디어는 많아지고 그동안 노트북으로 장시간 웹페이지나 영화를 보는 데 한계를 느꼈던 점을 생각하면 분명 매력적인 기계입니다. 그리고 IT업계 종사자가 아닌 다음에야 터미널(console)을 띄울 수 없다는 사실을 얼마나 불편해 하겠습니까 ;)

오늘은 iP* 시리즈에서 나타나는 애플의 계속된 '플렛폼화' 전략이 업계, 특히 한국의 IT 산업에 미치는 영향을 생각해보고자 합니다. 대학에서 전자공학을 전공했다가 컴퓨터로 대학원에 진학한 제가 귀에 닳도록 들은 말이 있습니다.
한국에서 소프트웨어를 해서는 밥 먹고 살기 힘들다.
는 것이었습니다. 실제로 주변 분들이 '삼성전자에는 컴퓨터 전공 임원이 하나도 없다', '프로그래머는 정년이 40이다'는 말씀을 하실 때에는 잠시 흔들리기도 했습니다. 하지만 좋아하는 것을 해야 잘 하는 성향 탓에 별 고민을 하지는 않았습니다. 그때가 2006년의 일입니다.

하지만, 2010년 한국 언론의 IT관련 섹션은 재주는 한국, 실속은 외국… 스마트폰도 뒤처져 ‘위기’애플 ‘아이패드’ 공개…콘텐츠 유통 혁명 “뭐하니, IT 코리아”와 같은 기사로 넘쳐나고 있습니다. 이제 이런 발언을 해도 될 것 같습니다.
소프트웨어를 무시해서는 삼성전자도 살아남을 수 없습니다.
애플이 파는 휴대폰은 단 한종류이고, 판매 댓수도 노키아의 1/10이 안 되지만 순익은 더 많다고 합니다. 그리고 그 수익의 상당 부분이 앱스토어의 애플리케이션 판매에서 온다는 것도 잘 알려진 사실입니다. 그것이 소프트웨어의 힘입니다. 남들이 휴대폰을 하드웨어와 네트웍 비즈니스로 볼 때, 이를 애플리케이션을 올리고 판매할 수 있는 플렛폼으로 볼 수 있었던 혜안, 그리고 이를 가능하게 하는 운영체제와 개발 환경을 포함한 풀 스택(full stack)을 만들어낼 수 있었던 기술력이 오늘의 iPhone을 만들었습니다.

사실 iPhone에서 나타난 애플의 성공 비결은 새로운 것이 아닙니다. 애플이 처음 iPod을 내놓았을때에도 초기 반응은 신통치 않았지만, iTunes 및 뮤직 스토어와 결합된 차원높은 사용 환경(user experience)은 결국 iPod이 세계를 제패하게 만들었습니다. 그리고 그들은 iPhone에 이어 iPad에서 플렛폼화 전략을 이어가고 있습니다. 지금은 iPad에 대한 반응이 엇갈리고 있지만, 그동안 iPhone 앱을 개발하던 인력들이 프로그램을 개발하여 내놓기 시작하면 점차 시장을 석권하게 될 것입니다. 

그동안 전자 및 반도체 산업에서 우리나라가 이룩한 성장은 눈부시지만, 기술의 상향 평준화에 따라 하드웨어에서 창출할 수 있는 부가가치는 한계를 드러내고, 하드웨어 판매를 위해서라도 소프트웨어를 무시할 수 없는 상황이 되어갑니다. 게다가 소프트웨어의 판매에는 국경도 없고, 고정 비용도 없습니다. 그야말로 황금 산업입니다. 하지만 플렛폼화는 커녕 휴대폰마다 운영체제를 따로 만들고 있는 우리나라 업체들에게 이것은 먼나라 이야기입니다.

어떻게 이 상황을 해결해야 할까요.  '플렛폼 전략'이라고 간단히 이야기했지만 이것은 쉬운 일이 아닙니다. 범용 운영체제-컴파일러-개발 툴을 제공하고, 개발자들이 이를 활용하여 애플리케이션을 만들고, 이런 노력이 다시 제품의 가치를 높이고 판매 및 개발을 더욱 활성화하는 선순환의 고리가 완성되어야 합니다.  소프트웨어 기술 뿐만 아니라, 개발자 지원 등의 플렛폼 운영 노하우, 그리고 사회적인 인프라까지 필요한 일입니다. 우리의 대표격인 삼성전자가 뒤늦게나마 '바다'를 만든다고 나섰지만, 한두 업체의 노력만으로 해결될 일은 아닙니다. 

풀뿌리 축구가 결국 그 나라 대표팀의 성적을 좌우하듯이, 근본적인 문제 해결을 위해서는 소프트웨어 개발을 취미로 하는 사람도 늘어나고 직업 프로그래머의 대우도 개선하여 최고의 인력들이 몰리도록 해야 합니다. 플렛폼 전략으로 세계를 이끌고 있는 구글과 애플이 모두 소프트웨어 개발자가 우대받는 미국, 그것도 실리콘 벨리의 회사라는 것은 우연이 아닐 겁니다. 최근 화두가 된 소프트웨어의 중요성에 대한 각성이 일시적인 것이 아니기를 기원해 봅니다.


P.S. 그나저나, iPad은 과연 성공할까요? 여러분의 의견은 어떠신지.

정보 검색, 컴퓨터 비전, 기계 번역 등 알고리즘으로 인간을 흉내내려는 인공지능 분야에서는 결국 사람이 무엇이 옳은지에 대한 판단을 내려줘야 하는 경우가 많습니다. 예를 들어 특정 질의어에 주어진 문서가 적합한지, 번역된 문서의 뜻이 원문에 충실한지 등의 판단이 이에 속합니다.

이처럼 단순하지만 사람이 해야 하는 일을 게임화하여 자발적으로 하게끔 하게 만드는 것을 핵심 아이디어로 하는 연구의 동영상이 Human Computation이라는 이름으로 화제가 된 적이 있었습니다. 그 연구의 핵심인물인 Luis von Ahn은 그 해 미국 CS Professor Job Market의 Hottest Candidate이었다고 하죠.

그때 많은 사람들이 재미있다고 생각하고 넘겼을 이 아이디어를 아마존이 사업화했습니다. 이러한 단순 작업의 노동력을 사고 파는 시장이 생긴 것입니다. 예를 들어 검색엔진 개발자가 질의어 100개와 각 질의어에 해당하는 Top100문서를 올리면 이들의 relevance를 누군가가 온라인으로 판별해주고 돈을 받는 것입니다. 실제로 얼마전에 MS에 인수된 자언어 검색 앤진 업체인 PowerSet의 검색 결과 판별이 올라와 있군요. 물론 온라인 옥션에서처럼 일이 제대로 되었는지를 제안자가 확인하여 지불하는 시스템입니다.

단순히 검색 연구자에게만 관련된 일은 아닌 것 같습니다. 지금은 이렇게 단순한 형태의 서비스지만, 앞으로 더 복잡하고 창조적인 일에 대해서도 충분히 적용될 수 있기 때문입니다. 더 나아가서는 피터 드러커나 폴 그라함, 구본형씨 등이 누누히 외쳐온 대로 전통적인 고용 형태가 점차 일회적이고 프로젝트 단위로 결합하여 일하는 ‘1인 기업(free agent)’의 집합으로 변화하는 신호탄이라고 해석할 수도 있지 않을까요.

블로그에는 이곳에서 일을 수행한 사람들의 처리 속도를 분석한 자료가 올라와 있습니다. 단순 작업이라도 일정한 속도로 처리하는 사람과 들쭉날쭉한 속도를 보이는 사람이 뚜렷이 구분되며 일 간에도 난이도의 편차가 있기 때문에, 더 ‘효율적인’ 사람에게 더 어려운 일을 배정하는 알고리즘이 필요하다고 결론짓고 있군요. 효율도 효율이지만, 제가 일의 성과가 낱낱이 데이터화하고 이에 따라 다음에 할 일이 기계적으로 결정된다면 조금 우울할 것 같군요 ;)

오늘 국내 포탈에서 검색과 관련된 일을 하시는 분을 뵈었습니다. 검색을 학문으로 공부하는 입장에서 현업 종사자의 생생한 경험을 들을 수 있는 기회였습니다. 보안상 구체적인 사항을 언급할 수는 없지만, 아직 우리나라 웹 서비스 회사의 기술적인 수준은 세계 수준과 상당한 격차가 있다는 생각이 들었습니다.

우선 검색 모델 개발 및 개선 절차가 체계화되어야 된다는 생각이 들었습니다. 흔히들 구글 검색이 검색어 매칭과 PageRank만을 기반으로 하는 것처럼 생각하시지만, 실제로는 수천개의 Feature가 정교하게 결합된 결과압니다. 이렇게 Feature의 개수가 많아질수록, 각 Feature의 결합은 각각이 검색 결과의 품질에 미치는 영향에 대한 엄밀한 분석을 바탕으로 해야 할 것입니다.

최근 학계에서 각광받고 있는 Learning to Rank 와 같은 기법을 사용하면 사용자의 클릭 등을 바탕으로 최적의 랭킹을 위한 주어진 Feature의 결합 가중치를 자동으로 학습할 수 있습니다. 지속적으로 검색 품질을 모니터링하고, 위와 같은 기법을 활용하여 주어진 Feature에서 최선의 결과를 끌어낼 수 있도록 해야 할 것입니다.

물론 위와 같은 기법의 활용을 위해서는 구글의 MapReduce, 야후!의 Hadoop과 같은 컴퓨팅 클러스터가 구축되어야 할 것입니다. 구글에서 나온 최근 논문 을 보면 구글이 활용하는 자동화된 알고리즘은 대부분 MapReduce연산의 반복으로 구현된다는 것을 알 수 있습니다. 구글이나 야후가 전세계를 상대로 인터넷 서비스를 제공할 수 있는 데에는 이와 같은 기본기가 바탕이 되는 것입니다.

아직 국내 인터넷 서비스는 토종 포털이 압도하고 있지만, 자동화된 알고리즘과 이를 뒷받침하는 컴퓨팅 파워를 갖춘 구글 등의 공세가 만만치 않을 것입니다. 국내 업체는 현지화를 강점으로 내세우고 있지만, 구글 등은 현지화를 넘어 모든 서비스의 개인화 에 도전하고 있습니다. 그것도 사람이 전혀 관여할 필요가 없는 방식으로 말입니다. 한국인 모두를 대상으로 최적화된 랭킹과 자신만을 위한 랭킹 중 어떤 것을 선택하시겠습니까.

이에 더 나아가 외국 업체들은 국경 없는 서비스 제공을 위한 기반 기술 개발에도 열심입니다. 구글이 막대한 투자를 아끼지 않고 있는 기계번역 기술이 어느 수준에 다다르는 순간, 각국 인터넷 업체와 구글간의 힘의 균형이 무너질 것이라는 예측은 지나친가요?