전문가의 시대는 끝났나

Essay : 2008. 10. 3. 11:59   By LiFiDeA

미국에 와서 자주 보는 와이어드(Wired)즈이 이번호 특집에 ‘이론의 끝 – 데이터 홍수가 과학적 방법을 쓸모없게 만든다’는 글이 눈길을 끌었습니다. 글의 요지는 페타바이트(1000테라바이트)급의 데이터를 손쉽게 다루고, 여기에서 패턴을 찾아내고 결론을 유도하는 기술이 발전하게 됨에 따라, 과학적 방법론의 요체인 가설 수립 및 실험을 통한 검증 과정에서 인간의 역할이 점차 축소되고 있다는 것입니다. 예컨데 특정 개체의 염기서열을 분석하는 차원을 넘어 생태계 전체를 모델링하고, 이 모델의 성립에는 필요하나 발견되지 않은 종이 있다면 그 종의 특성을 모델로부터 예측할 수 있다는 겁니다.

데이터마이닝/기계학습 기술이 일 이년된 것도 아니며, 이 기사에서 이야기하는대로 만능도 아닌데 벌써 과학의 종언을 운운하는 것은 과장(hype)으로 여겨집니다. 제가 아는 한 현재의 기술 수준은 매우 잘 정의된 문제(이진 분류, 군집화)에 대해 비교적 깨끗한(모델 특성에 맞는) 데이터를 넣어줄 경우 납득할만한(거의 인간 수준의) 성능을 보여주는 것으로 알고 있습니다. 그나마도 대부분 한번에 원하는 결과가 나오지 않아 경험자라 할지라도 상당한 시행착오를 거치게 됩니다.

따라서 현실의 복잡한 문제를 나누어 각각을 적절한 알고리즘에 넣고 처리하여 결과를 종합하는 전 과정에 ’전문가’의 노하우가 필요한 것입니다. 그리고 이런 노하우의 채득은 저수준의 패턴 인식 문제를 푸는 것보다 훨씬 고도의 지적 능력을 요구합니다. 따라서 과학적 연구 프로세스를 자동화하는 것은 AI 발달 단계에서도 가장 나중에 일어날 것으로 전망되고 있죠. (이 상태를 Singularity라고 부르는 것 같습니다만…)

하지만 고도화된 데이터 처리기술이 많은 부분에서 ’전문가’의 영역을 침범하는 것은 사실입니다. 며칠전 읽은 ‘Supercrunchers’ 라는 책에는 포도주 산지의 평년 기온 및 강수량 등이 그해 그 고장에서 생산된 와인의 평균 가격에 미치는 영향을 간단한 회귀분석(regression)을 사용하여 모델링하고, 이 모델이 결국에는 세계 최고의 와인 테이스터보다 더 정확게 포도주의 품질을 예측하게 되었다는 일화가 나옵니다. 저자는 데이터 처리기술(number-crunching)의 가능성에 대해 다음과 같이 자신있게 말합니다.

As long as you have large enough dataset, almost any decision can be crunched.

자신의 전문성이 경험을 통한 ’감’의 정확성에 의존하는 경우, 조만간 컴퓨터에 자리를 내주어야 할지도 모른다는 생각입니다. 이 책에는 그밖에도 매치매이킹, 항공기 티켓 가격 예측 등에 응용되는 데이터 처리기술의 다양한 사례가 소개됩니다. (번역본은 아직 없군요.)

이런 기술로 인해 발생할 실업 만큼이나 걱정되는 것이 기술의 차이가 가져올 기업과 국가 경쟁력의 차이입니다. 앞서 언급한 기사에서도 소개되지만, 미국에서는 구글과 IBM에서 대학과 손을 잡고 대용량 데이터 처리 기술을 연구하고 확산시키는 프로젝트를 시작했습니다. 이미 저만치 있으면서 더 달아나려는 그들의 뒷모습이 점점 희미하게 보이는 것은 저 혼자의 느낌만은 아닐 겁니다.

'Essay' 카테고리의 다른 글

최선을 다하지 않는 것이 최선이다?  (10) 2010.03.06
개인 프로젝트를 왜 해야 하나  (0) 2007.03.01
글쓰기의 가치  (0) 2006.12.31

예전에 잠깐 정보 검색 연구를 소개한 적이 있지만, 앞으로 정보검색론(Information Retrieval이하 IR)에 대해 써볼 생각입니다. 아직 풋내기 대학원생이지만, 지난 1년간의 공부를 정리하고 앞으로의 방향을 잡아보는 차원에서 시작합니다.

IR은 웹 검색이다?

제 연구분야를 간단히 소개할 때 검색엔진을 연구한다고 말하곤 합니다. 그러면 보통 ‘검색엔진? 그거 다 연구된거 아냐?’ 라는 반응을 봅니다. 사실 저도 구글 등 상업용 검색엔진을 쓰면서 불편함을 많이 느끼지 못했기에 비슷한 의문을 가졌습니다.

하지만 IR은 단순히 웹 문서의 검색을 연구하는 것이 아닙니다. IR은 좀더 넓은 의미에서 사용자의 정보 욕구(information needs)를 만족시키는 정보물(information object)를 찾아주는 것을 목표로 하기 때문입니다. 웹 문서 검색이 가장 잘 알려진 분야인 것은 사실이지만, 우리가 ‘아 그게 뭐지?’, 혹은 ‘아 그것이 어디 있을까?’라고 궁금해 하는 순간순간이 모두 IR연구자들이 해결하고자 하는 문제인 것입니다. 실제 세상의 모든 유무형의 사물은 정보의 형태로 표현될 수 있으며, 이들 정보물의 양에 비해 사람의 인지능력은 항상 턱없이 부족하기에 검색 연구는 앞으로도 계속될 것입니다.

흔히 우리가 보는 웹 검색, 질문과 답변을 찾는 지식 검색, 뉴스 검색, 이미지와 비디오 검색, 지도와 전화번호 검색 이외에도 어떤 분야의 전문가를 찾아주는 전문가 검색, 도서 검색, 음악 검색, 제품 검색 등 검색의 대상에는 제한이 없습니다. 또한 현재 연구중인 RFID 기술 등이 보편화되어 세상의 모든 물체에 센서가 달리게 되면 실제 사물역시 검색의 대상이 될 수 있겠습니다.

검색의 방식 측면에서도 한국어로 검색어를 입력했을 떄 적절한 영어 문서를 찾아주는 교차어 검색(cross-language IR)이나 키워드가 아닌 질문 형태의 검색어를 받아 적절한 답(문서가 아닌)을 구해주는 질의 응답(question answering – 컴퓨터가 답변해주는 지식인이라고 생각하시면 됩니다.), 여러 곳에 나누어진 정보를 모아서 검색해주는 분산 검색(distributed IR) 역시 검색의 세부 분야로 연구되고 있습니다.

무엇을 어떻게 연구하나?

검색을 연구한다면 정확히 뭘 하는지 궁금하실 겁니다. 우선 사용자의 정보욕구는 검색어(query) 형태로 표현되기 때문에, 질의어를 분석하는 것이 필요합니다. 질의어에서 어구(phrase)나 사람 이름 등의 고유명사를 추출하기도 하고, 질의어에서 단어를 빼거나 추가하면 검색 결과가 좋아지는 경우가 많은데 관련된 기술을 질의어 확장(query expansion)이라고 합니다.

질의어가 분석되었다면 정보물(여기서는 문서를 가정)을 분석해야 할 것입니다. 문서는 미리 색인화(indexing)를 거쳐 속성 집합(feature set) 형태로 표현되는데, 이 속성에는 문서에 포함된 단어나 어구, 문서의 인기도나 최선성 등의 관련 정보가 모두 포함됩니다. 어떤 속성(feature)를 검색에 사용하느냐가 검색 성능을 좌우하기 때문에 검색회사나 연구자들은 검색에 도움이 되는 속성을 개발하느라 열심입니다. 상업용 검색엔진에는 수천개의 속성이 사용되고 있으며, 지금도 계속 추가된다고 하는군요!

질의어와 문서가 분석되고 나면 이를 비교해서 관련성(relevance)이 높은 문서 순으로 정렬해야 할 것입니다. 이를 위해 각 문서에 점수를 매기는데, 이때 사용되는 수식이 검색 모델입니다. 검색모델은 기본적으로 검색어와 문서의 유사성(textual similarity) 및 문서의 품질 등을 종합적으로 고려하여 순위를 매기는데, 검색어와 문서를 벡터로 놓고 비교하는 방법, 문서를 확률 변수로 보는 방법 등이 있지만 어느 모델이 더 우월한지는 결론이 나지 않은 상황입니다. 최근에는 각 속성간의 중요도를 자동으로 결정하는 기계학습 기반의 방법이 개발되어 널리 사용되고 있습니다.

검색 결과가 나온 다음에는 이를 평가해야 할 것입니다. 제가 검색 연구를 시작하기 전에 가장 궁금했던 부분인데, 결국에는 사람이 판단해준 결과를 바탕으로 검색 품질을 점수화하는 것이었습니다. 예컨데, 상위 10개 문서중 7개가 관련성이 있다면 0.7점을 주는 식이죠. 언뜻 간단하게 보이지만, 이 과정에는 비용도 많이 들어가고 고려해야 할 점이 많기에 검색 결과의 평가는 검색 연구의 중요한 축을 형성하고 있습니다.

아직 궁금하다면…

검색을 다루는 글이니만큼 참고자료도 ‘정보검색’ 이라는 키워드를 사용한 검색결과로 제공하겠습니다;) 목록을 보시면 위키피디아 페이지, 책 등의 자료가 첫페이지에 있는 것을 보실 수 있습니다. 저희학교 정보검색 수업 홈페이지도 있군요.

오늘 국내 포탈에서 검색과 관련된 일을 하시는 분을 뵈었습니다. 검색을 학문으로 공부하는 입장에서 현업 종사자의 생생한 경험을 들을 수 있는 기회였습니다. 보안상 구체적인 사항을 언급할 수는 없지만, 아직 우리나라 웹 서비스 회사의 기술적인 수준은 세계 수준과 상당한 격차가 있다는 생각이 들었습니다.

우선 검색 모델 개발 및 개선 절차가 체계화되어야 된다는 생각이 들었습니다. 흔히들 구글 검색이 검색어 매칭과 PageRank만을 기반으로 하는 것처럼 생각하시지만, 실제로는 수천개의 Feature가 정교하게 결합된 결과압니다. 이렇게 Feature의 개수가 많아질수록, 각 Feature의 결합은 각각이 검색 결과의 품질에 미치는 영향에 대한 엄밀한 분석을 바탕으로 해야 할 것입니다.

최근 학계에서 각광받고 있는 Learning to Rank 와 같은 기법을 사용하면 사용자의 클릭 등을 바탕으로 최적의 랭킹을 위한 주어진 Feature의 결합 가중치를 자동으로 학습할 수 있습니다. 지속적으로 검색 품질을 모니터링하고, 위와 같은 기법을 활용하여 주어진 Feature에서 최선의 결과를 끌어낼 수 있도록 해야 할 것입니다.

물론 위와 같은 기법의 활용을 위해서는 구글의 MapReduce, 야후!의 Hadoop과 같은 컴퓨팅 클러스터가 구축되어야 할 것입니다. 구글에서 나온 최근 논문 을 보면 구글이 활용하는 자동화된 알고리즘은 대부분 MapReduce연산의 반복으로 구현된다는 것을 알 수 있습니다. 구글이나 야후가 전세계를 상대로 인터넷 서비스를 제공할 수 있는 데에는 이와 같은 기본기가 바탕이 되는 것입니다.

아직 국내 인터넷 서비스는 토종 포털이 압도하고 있지만, 자동화된 알고리즘과 이를 뒷받침하는 컴퓨팅 파워를 갖춘 구글 등의 공세가 만만치 않을 것입니다. 국내 업체는 현지화를 강점으로 내세우고 있지만, 구글 등은 현지화를 넘어 모든 서비스의 개인화 에 도전하고 있습니다. 그것도 사람이 전혀 관여할 필요가 없는 방식으로 말입니다. 한국인 모두를 대상으로 최적화된 랭킹과 자신만을 위한 랭킹 중 어떤 것을 선택하시겠습니까.

이에 더 나아가 외국 업체들은 국경 없는 서비스 제공을 위한 기반 기술 개발에도 열심입니다. 구글이 막대한 투자를 아끼지 않고 있는 기계번역 기술이 어느 수준에 다다르는 순간, 각국 인터넷 업체와 구글간의 힘의 균형이 무너질 것이라는 예측은 지나친가요?

고3과 대학원

유학생활 : 2008. 2. 3. 12:53   By LiFiDeA

대학원에 진학하며 생각한 것 중 하나가 ‘고3때 처럼만’ 이었다. 부끄럽게도 스스로 가장 치열하게 살았다고 기억되는 때가 고3이였던 까닭이다. 아침 자율학습을 시작으로 야간 자율학습까지 마치고 그것도 모자라 도서관까지 갖다 집에 오던 날도, 공부가 잘 되던 날은 그렇게 행복할 수가 없었다. 원하는 것을 분명히 알았고, 그것을 향해 한걸음씩 다가가고 있다고 확신했기 때문일까.

어른이 되어 원하는 전공(전자)을 선택했지만 생각만큼 몰입할 수 없었고, 전공 공부보다 인생 공부에 관심이 많았던 학부 생활을 거쳤다. 그 후 정말 이거다 싶은 분야를 찾아 시작한 대학원 생활을 고3의 각오로 시작하는 것은 자연스러운 것이었다.

대학원과 고3은 비슷한 점도 많다. 깨어있는 시간의 대부분을 쏟아 넣어야 하고, 끊임없이 한계를 시험함으로써 스스로를 키워야 한다. 성과에 대한 엄밀하고 끊임없는 피드백(모의고사, 논문)이 주어진다는 점도 같다.

하지만 몇달이 지난 지금, 고3처럼 대학원 생활을 해서는 절대 성공할 수 없다는 생각이 든다. 심지어 고3 생활을 겪어내며 생긴 사고방식과 습관이 대학원 공부를 하는 데 장애가 된다고까지 느껴진다. 고3과 대학원은 전혀 다른 게임이라는 생각이 강하게 들기 때문이다.

고3은 대학에 가기 위해 공부를 한다. 좀더 구체적으로 잘 정리된 교과서와 참고서를 반복 숙달하며, (과외) 선생님이 떠 먹여주기도 한다. 공부에 대한 주된 동기는 주로 부모님과 선생님에게서 나온다. 이 게임에서 성공하는 학생은 현재보다는 미래를 바라보고 주변의 기대에 부응하기 위해서 스스로를 통제하고 주어진 일을 묵묵히 해나가는 방법을 배운다. 교과서를 감히 의심하거나, 그 이상을 알려는 것은 비효율적인 일이다. 시험 점수를 받을 수만 있다면 무턱대고 외워도 되기 때문이다. 출제 경향을 짚어 전과목에 적절한 시간을 배분하고, 빠른 시간에 정확하게 답을 골라내는 것이 핵심 기술이다.

대학원은 이와 다르다. 여기서는 자신의 선택으로, 스스로 정의하고 발견해 나가는 공부를 한다. 또한 이해의 깊이가 핵심이기 때문에 ‘전과목에서 고른 성적’을 받는 것은 별 의미가 없다. 끊임없이 묻고, 가설을 세우고, 이를 검증하여 이론을 만들고, 나아가 다른 사람에게 이해시키는 것이 능력이다.

지나친 이상론이라고 생각할지도 모른다. 실제로 많은 대학원생들이 자신보다는 지도교수에 의해 주어지는 일을 하지 않냐고, 대부분의 경우 그저 때맞춰 졸업하여 그럴듯한 곳에 자리잡는 것이 목표 아니냐고 말이다. 어쩌면 그럴지도 모르겠다. 나도 여기 오기 전에는 비슷한 생각을 했으니 말이다. 물론 원하는 공부를 한다는 핵심 동기가 있었지만, 주변에서 ‘눈 딱감고 5년만 버티면 된다’는 말을 들어도 별 거부감이 없었다. 고3때처럼 ‘밝은 미래’를 떠올리며 현재의 고통을 감내하면 될 줄 알았다.

여기 와서도 처음에는 그렇게 스스로를 채찍질했던 것 같다. 아침에 일어나서 어려운 수학책을 진도에 맞춰 읽기도 했고, 일년 내에 첫 논문을 쓰겠다고 랩에서 연구 주제를 붙잡고 늦게까지 있어보기도 했다. 하지만 이는 오래 가지 못했다. 고통도 고통이었지만, 무엇보다도 그렇게 해서 될 일이 아니라는 생각이 들었다. 목적했던 공부도 제대로 되지 않았고, 연구 자체도 뭔가 꽉 막힌 느낌이었다.

몇달이라면 가능했을지도 모른다. 익숙한 환경에서 부모님의 보호를 받는 상황이라면 좀더 쉬웠을 것이다. 하지만, 타국에서 혼자 수년을 그렇게 보낼 수는 없는 일이었다. 그것도 인생의 황금기에 말이다. 설사 가능하더라도 내가 원하는 삶의 모습과는 거리가 멀었다.

그제서야 깨달았다. 대학원 생활은 고3처럼 해서 되는 것이 아니라는 것을. 스스로가 중심이 되지 못하고 공부를 수단으로 전락시켜서는 새로운 발견을 가능케하는 깊이에 도달할 수 없다는 것을, 창조에 필요한 에너지는 대상에 대한 순수한 호기심에서 나온다는 것, 무엇보다도 그렇게 하지 않고서는 지속할 수 없다는 것을 말이다. 정해진 목표에 스스로를 얽매기보다는, 자신의 분야에 푹 빠져 스폰지처럼 지식을 흡수하고 미지의 영역을 개척하는 자유를 만끽해야 하는 것이다.

그렇게 마음을 고쳐먹고 공부할 내용을 해치워야 하는 정복의 대상으로 바라보기보다는 마음 깊은 곳에서 받아들이려고 노력했다. 시험만 끝나면 다 잊어버려도 되는 것이 아니라, 평생을 벗삼고 키워가야 할 지식이니 말이다. 그제서야 외계어처럼 보이던 책들이 친근하게 다가왔다. 논문을 써야 한다는 강박관념을 버리고서야 주제에 대한 새로운 시각이 보이기 시작했다.

물론 이는 말처럼 간단한 일이 아니다. 어리고 예민했던 시절에 각인된 습관을 버리는 일이니 말이다. 심지어 고3 생활을 지나치게(?) 열심히 했던 자신이 원망스럽기까지 했다. 하지만 아직도 20대, 스스로 선택한 길이 나를 올바른 방향으로 이끌고 있으니 다행이라고 해야 할까.

소년들은 야망을 가져야 된다고 하지만, 대학원생은 야망을 버려야 할 것 같다. ’야망’이 상징하는 세속적 가치가 눈이 들어오는 순간 연구자로서의 눈은 멀게 되니 말이다. 다만 물살을 거슬러 올라가는 듯한 지금의 숨가쁨이 훗날 대양을 주유(周遊)하는 돌고래의 해방감으로 바뀌기를 바랄 뿐이다.

'유학생활' 카테고리의 다른 글

화가는 캔버스를 두려워하지 않는다  (1) 2009.03.03
모범생이 싫다  (1) 2008.01.03
좋아하는 일 지켜가기  (1) 2007.11.03

모범생이 싫다

유학생활 : 2008. 1. 3. 12:47   By LiFiDeA
어떤 사람을 묘사할 때 종종 붙은 수식어로 ’모범생’이 있다. 이 말은 1)공부를 잘 하고 2)주변의 기대에 부응하는 삶을 살아가는 사람에게 주로 긍정적인 늬앙스로 사용된다.(한국에서는 1)과 2)가 거의 동의어다.) 불행인지 다행인지 나는 이 말을 상당히 많이 들어온 데다, 주변을 둘러봐도 ’모범생’이 가득하다.

이 말에 대해 원인모를 거부감을 가져왔던 내게 최근에 그 실체를 파악하게 해준 책이 있으니 바로 시오노 나나미(이하 시오노상 — 그녀가 사람들에게서 원하는 호칭이란다.)의 ‘남자들에게’ 였다. 관습보다는 독창성을, 지능보다 판단력을, 눈에 보이는 핸섬함보다 보일듯 말듯한 스타일을 추구한다는 시오노상이 자신이 생각하는 바람직한 남자의 모습에 대해 쓴 에세이다. 20대에 단신으로 유럽에 건너가 동서양을 넘나드는 온갖 체험을 하며 혼자 서양 고대사를 탐구하여 거의 대가급 작가가 된 여인의 남자론이니 한줄 한줄의 무게가 남다르다.

시오노상은 ‘매력있는 남자’를 다음과 같이 명쾌하게 정리한다.

매력 있는 남자란 자기 냄새를 피우는 자다. 스스로 생각하고, 스스로 판단하고, 무슨 무슨 주의주장에 파묻히지 않고 유연한 사람. 그러니 더욱 예리하고 통찰력 있는, 바로 그런 자다.


이 부분을 읽으며 온몸을 휘감는 전율을 느낀 것은, 내가 생각하는 삶의 지향점의 정수가 담겨있기 때문이 아니었을까. 그렇다. 나는 스스로의 목소리를 갖고, 이를 통해 세상을 바꾸고 싶었다. 지금까지 그렇게 해 왔으니까, 남들이 다 그렇게 하니까 그냥 그렇게 따라가는 것이 싫었다.

’모범생’이라는 말이 싫었던 것은, ’모범’이라는 말에 자신의 목소리 보다는 관습적으로 바람직하다고 여겨지는 기준에 충실하다는 뜻이 담겨있기 때문일 것이다. 그리고, 잠재적으로는 세상에 자신을 끌어다 맞춤으로써 얻어지는 안전한 보상에 가치 기준을 두고 있다는 뜻이기도 할 것이다.

하지만, 모범생을 거부하는 것는 간단한 일이 아니다. 내면의 목소리에 끊임없이 귀를 기울이며, 동시에 이를 객관적 진리, 그리고 세상의 기준에 맞춰가려는 노력을 하지 않으면 자신만의 ‘의미있는 목소리’를 갖기는 어려운 일이다. 또한 순응이 던져주는 달콤한 미끼를 덥석 베어물지 않아야 한다. 늘 ‘깨어있어야’ 하는 것이다.

그런 면에서 내게 주어진 환경이 감사하기도 하다. ’세상’보다는 ’자신’에게 충실하게 해주기 때문이다. 시오노상은 이런 말도 했다.

자유를 제한받은 곳에서 참된 자유가 발휘된다. 정신활동의 완전 연소는 어느 정도의 구속 없이는 성취하기 어려운 것 같다.

이곳 생활에 익숙해지며 가끔 답답함이 느껴지기도 하는 요즈음, 이 말을 떠올리며 마음을 다잡아 본다.

'유학생활' 카테고리의 다른 글

고3과 대학원  (2) 2008.02.03
좋아하는 일 지켜가기  (1) 2007.11.03
유학생 살아남기  (0) 2007.11.03