시애틀에서 벌써 두달을 보내고 일주일간의 휴가를 얻었습니다. 인턴 기간중에는 블로그에 글을 쓰기가 쉽지 않았습니다. 예전에도 최선을 다하는 것이 최선이 아니다는 글을 쓴 적이 있지만, 한가지에 집중하다 보면 주변을 돌보지 못하는 것은 어른으로서 고치고 싶은 습관입니다. 어쨌든 두 달간 열심히 일했고, 다음 주는 여러 의미에서 쉬어가는 기간을 가지려고 합니다. 이번 휴가 기간에 스스로에게 몇가지 약속한 일이 있습니다. 

1) 내면에 귀를 기울일 것 

2) 서두르거나 무리하지 않을 것

3) 주변을 돌볼 것

일주일 뒤에 조금은 느슨해지고 비뚤어진 일상이 제자리를 찾았으면 하는 바랩입니다. 휴가 기간동안 인턴 생활을 통해 배우고 느낀 점을 차근 차근 정리해 올리려고 합니다. 

ECIR 학회 참석 & 아일랜드 풍경

유학생활 : 2011. 5. 1. 13:25   By LiFiDeA
지난주에 아일랜드 더블린(Dublin)에서 열린 ECIR (European Conference for Information Retrieval)학회를 마치고 돌아왔습니다. 지난 글에서 소개했지만,  ECIR은 정보검색 연구의 중요한 축을 형성하고 있는 유럽에서 매년 열리는 메이저 컨퍼런스입니다. 

ECIR 컨퍼런스의 개최를 알리는 발표

4월의 아일랜드의 풍광 역시 눈부셨습니다. 더블린은 흐리고 궂은 날씨로 유명한 곳이지만, 다행히도 지난주에는 비가 오다가도 하루에 한번은 햇빛이 비치는 좋은 날씨었습니다. 더블린 하면 기네스 맥주를 떠올리는 분들이 많으실텐데, 더블린은 밤이 되면 도시 전체가 거대한 펍(pub)과 같은 흥겨운 분위기입니다. 모든 것이 거대하지만 다소 삭막한 미국 거리에 익숙해져 있다가 아기자기하고 사람 냄새가 나는 유럽에 가면 항상 정겨운 느낌입니다. 

아일랜드의 중심가 Temple Bar지역의 대표 Pub

매번 학회에 참석할때마다  느끼는 점이지만, 이번에도 4일간 정신없이 배우고 느끼고, 사람들과 만나면서 머리가 리셋되는 느낌을 받았습니다. 마음에서 타성과 묵은 찌꺼기는 날아가고, 그 자리를 다시 호기심과 새로운 각오가 채우는 그런 transformative한 경험이었습니다.

처음 학회에 참석했을 때 여러가지로 난감했던 일을 떠올리며 EduHow에 학회 참석에 대한 몇가지 생각을 적었습니다. 관심있는 분께서는 학회 준비에 관한 지난 포스팅과 함께 참고하시기 바랍니다. 
작년에 시애틀에서 뵈었던 HKUST의 김성훈 교수님께서 쓰신 학회에 *잘* 참여하기라는 글을 재미있게 읽었습니다. 저널을 중시하는 다른 분야와 달리 Computer Science 분야에서는 최신 연구 성과가 학회를 통해 확산되는 경우가 많은 것 같습니다. 따라서, 학회에 참여하여 사람들과 소통하고 정보를 얻는 것이 연구자로서 중요한 일입니다. 

내일 ECIR'11 학회 참석을 위해 아일랜드 더블린(Dublin)으로 출국합니다. 프랑스 툴루즈에서 열렸던 ECIR'09가 생애 첫 학회참석이었으니, 제게는 고향같은 학회입니다. 이번이 6번째 학회 참석이니 초보티는 많이 벗었지만, 아직도 학회 참석은 여러가지 준비를 필요로 합니다. 김성훈 교수님꼐서 전해주신 교훈을 떠올리며, ECIR'11학회 소개를 겸한 저의 준비 과정을 적어볼까 합니다. 

논문 발표 / 워크샵 준비

가장 먼저 준비할 것은 제 연구에 대한 발표입니다. 이번 논문의 제목은 An Analysis of Time-instability in Web Search Results으로, 작년 Bing에서 했던 연구의 일부입니다. 어제 연구실 사람들과 Practice Talk을 했고, 발표 전날 더 연습을 할 생각입니다.  출발 전에 하는 연습은 주로 슬라이드에 대한 피드백을 얻는데, 전날 하는 연습은 발표에 대한 피드백을 얻는데 유용합니다. 발표자료는 몇 부 더 출력하여 학회 중간중간 사람들을 만났을 때 사용할 수 있도록 준비합니다.

본 학회가 모든 주제를 망라하는 큰 소통의 장이라면, 워크샵은 특정 세부분야의 연구자들이 논문 발표 및 좀더 심도있는 논의를 하는 작은 학회라고 할 수 있습니다. 사실, 저의 경우 논문 주제도 참가자들의 배경도 너무 광범위한 본 학회보다는 자신의 관심분야를 워크샵에서 더 많이 배운다는 느낌입니다.

특히, 이번 학회에서는 저와 동료 연구자 몇명이 개인정보 검색의 평가에 대한 웍샵(Evaluating Personal Search Workshop)을 진행하게 되었습니다. 개인정보의 검색은 데이터의 Privacy문제로 평가가 쉽지 않은데, 이에 대한 평가모델을 논의하는 것이 이번 웍샵의 주제입니다. 성공적인 웍샵을 위해 다른 Chair들과 발표자료 및 세부 일정을 협의하고, 학회 참가자들을 대상으로 웍샵을 흥보하는 것이 필요합니다. 

학회에는 또한 특정 주제에 대해 전문가의 강의를 듣는 튜토리얼이 있습니다.  이번 학회에서는 워크샵과 같은날 Tutorial을 진행하기 때문에 직접 참석은 힘들지만, 튜토리얼을 진행하는 분들께 연락하여 강의자료를 얻고, 학회 중간중간 궁금한 점을 질의할 생각입니다. 본 학회의 튜토리얼은 다음과 같습니다.



 관심 논문 뽑기

학회 참석의 주요 행사는 역시 페이퍼 / 포스터 발표 세션입니다. 하지만, 발표되는 논문 모두를 현장에서 소화한다는 것은 불가능에 가깝습니다.  학회를 마치고 나서 저녁 시간이 있지 않냐고요? 학회 중에는 자신의 발표 준비 및 연회 참석 등으로 바빠서 잠도 설치는 것이 보통입니다. 

따라서 미리 관심 논문을 추려서 찾고, 가능한 미리 훑어봅니다. 많은 저자들이 자신의 논문을 개인 홈페이지에 올려놓기 때문에 웹 검색을 통해 많은 논문을 찾을 수 있고, 그중 특히 관심이 가는 논문은 저자에게 메일을 통해 논문을 요청하기도 합니다. (이를 통해 사전에 저자와 인사하게 되는 효과도 있습니다!) ECIR'11에서 제 연구분야에 해당하는 관심 논문은 다음과 같습니다.

What Makes Re-finding Information Difficult? A Study of Email Re-finding

David Craig Elsweiler1, Mark Baillie2, Ian Ruthven2

1University of Erlangen, Germany; 2University of Strathclyde, United Kingdom


A Methodology for Evaluating Aggregated Search Results

Jaime Arguello1, Fernando Diaz2, Jamie Callan1, Ben Carterette3

1Carnegie Mellon University; 2Yahoo! Research; 3University of Delaware


Learning Models for Ranking Aggregates

Craig Macdonald, Iadh Ounis

University of Glasgow, United Kingdom



주 연구분야가 아니라도 관심이 가는 논문을 추려봅니다. 이렇게 하면 어느 세션에 참석할지 (보통 학회는 여러 세션이 동시에 진행됩니다.) 미리 결정할 수 있습니다. 이번 학회에는 Evaluation측면에서 흥미있는 논문이 많이 보입니다.  검색 평가의 Hot 트렌드 중 하나인 Crowdsourcing (Amazon Mechanical Turk) 관련 논문도 두편이나 있습니다. 


On the contributions of topics to system evaluation

Stephen E Robertson

Microsoft Research Cambridge, United Kingdom


In Search of Quality in Crowdsourcing for Search Engine Evaluation

Gabriella Kazai

Microsoft Research, United Kingdom


Design and Implementation of Relevance Assessments using Crowdsourcing

Omar Alonso1, Ricardo Baeza-Yates2

1Microsoft, United States of America; 2Yahoo


Exploiting Thread Structures to Improve Smoothing of Language Models for Forum Post Retrieval

Huizhong Duan, Chengxiang Zhai

UIUC, United States of America


AutoEval: An Evaluation Methodology for Evaluating Query Suggestions Using Query Logs

M-Dyaa Albakour1, Nikolaos Nanas2, Udo Kruschwitz1, Maria Fasli1, Yunhyong Kim3, Dawei Song3, Anne DeRoeck4

1University of Essex, United Kingdom; 2Centre for Research and Technology, Greece;3Robert Gordon University, United Kingdom; 4Open University



개인적으로 아는 저자의 논문 역시 미리 읽어두면 좋겠죠? 다음은 한국 저자들의 논문입니다. 


Text Classification for a Large-Scale Taxonomy using Dynamically Mixed Local and Global Models for a Node

Heung-Seon Oh, Yoonjung Choi, Sung-Hyon Myaeng

KAIST, Korea, South (Republic of)


Smoothing Click Counts for Aggregated Vertical Search

Jangwon Seo1, W. Bruce Croft1, Kwang Hyun Kim2, Joon Ho Lee2

1University of Massachusetts Amherst, United States of America; 2NHN Corp., South Korea



사람들과 연락 / 일정잡기
 

 관심 논문을 고르다 보면 누구와 만날 것인지도 어느 정도 윤곽이 잡힙니다. 유명한 학자일수록 꼭 이야기하고 싶다면 미리 연락을 취하는 것이 필요합니다. 학회는 또한 구인/구직의 장이기도 합니다. 예컨데 회사에서의 여름 인턴을 생각하고 있다면 해당 회사에서 나오는 논문을 주의깊게 볼 필요가 있을 겁니다.  이렇게 관심 논문을 결정하고 사람들과 약속이 잡다보면 '이번 학회에서 무엇을 배울 수 있겠구나...'
하는 윤곽이 잡힙니다.

저의 경우, 역시 워크샵을 함께 진행할 David Eilsweiler, Leif Azzopardi등 Interactive IR 및 개인정보의 검색을 주로 연구하는 분들과 많은 시간을 보낼 것 같습니다. 또한, 올 여름에 MSR에서 같이 일하게 될 Kevyn Collins-Thompson이 튜토리얼 진행을 위해 학회에 참석하기 때문에, 종종 만나 인턴 프로젝트에 대해 의논할 생각입니다. 또한 유럽에서 Interactive IR 연구로 유명한 Tony Russell-Rose라는 분도 만나뵐 계획입니다. 

기타 준비

이외에도 아무래도 장거리 여행인만큼 기타 잡다한 준비가 많습니다. 현재 규격에 맞는 전기 어댑터, 무선랜이 제공되지 않을 경우 유용한 랜케이블등이 떠오릅니다. 또한 비행기 check-in 및, 현지 화폐로의 환전 역시 필요한 준비 중 하나입니다.  현지 날씨 및 교통, 문화적 차이에 대해서는 보통 컨퍼런스에서 제공하는 가이드북을 참고하는 것이 좋습니다. 지난번 CIKM'10에서 유용하게 사용한 iPad에도 읽을거리를챙겨 넣습니다. 

또한 직접 출력한 것이라도 좋으니 명함(Business Card)을 준비하라고 말씀드리고 싶습니다. 아무리 트위터와 페이스북의 시대라고는 하지만, 바쁜 하루를 마치고 숙소에 왔을 떄 들어있는 명함 때문에 다시 연락했던 분들이 많거든요. 

마치며

학회 참석은 역시 즐거워야 하는데 학회 준비가 연구에 너무 치중했나요? 제 경험으로는 (역설적으로) 이런 준비가 충실할수록 본 학회에서는 다른 생각 없이 순간순간을 즐길 수 있게 되는 것 같습니다.  물론 맥주의 나라 아일랜드이니만큼 좋은 Pub도 몇개 알아두었습니다 ;)

첫 학회 참석을 앞두고서는 기대만큼이나 긴장감이 컸었던것 같은데, 이번에는 예전과는 달리 익숙한 사람들과 다시 만난다는 편안한 마음입니다. 학회 중에도 시간이 허락하는 대로 블로깅을 해볼 생각이니 기대해 주세요!

'자기개발'에 관심이 있으십니까? 예전에는 학생이나 사회 초년생들이 관심을 갖는 주제였지만, '직장인들 사이에서 자기개발이 붐'이라는 식의 기사를 보면 많은 분들이 관심을 갖는 주제가 아닐까 합니다. 하지만, 특정한 외부적 자극이 없는 상태에서 스스로를 발전시킨다는 것이 쉬운 이야기는 아닙니다. 저의 경우에도 자기개발은 오랜 화두였지만, 관심과 의욕은 높으면서도 지속적인 실천이 쉽지 않은 까닭에 잦은 시행착오를 겪었습니다. 

자기개발의 가장 흔한 형태 - 독서

자기개발은 역시 독서을 통해 하는 것이 가장 일반적인 방식이 아닌가 합니다. 우리나라에서도 소위 '자기개발서'가 출간되는 책 중에 살당수를 차지하지만, 미국에서도 Self-help라고 하는 자기개발 분야는 출판물을 중심으로 거대한 시장을 형성하고 있습니다. 최근에는 자기개발을 위한 컨설팅 등의 서비스를 제공하는 Life-coaching이라는 직업군까지 등장할 정도이니, 그 열기는 보통이 아닙니다. 아래 그림에서 보듯, '자기개발'에는 다양한 세부 분야가 존재합니다.



프랭클린 플래너나 GTD (Getting Things Done)등의 방법론과 툴이 결합된 형태를 제외하면, 전통적인 자기개발은 이처럼 책에서 본 내용을 개인 각자의 의지에 따라 실천하는 형태를 띕니다. 하지만 여기에는 몇가지 한계가 있습니다. 1) 책에서 설명하는 내용은 저자 입장에서 기술한 것이라 독자 개개인의 상황에 맞는 처방이 아닐수도 있습니다. 2) 책에서 설명한 내용을 이해한다고 해도 의지력만으로 지속적인 실천을 하기란 쉬운 일이 아닙니다. 3) 책에서 모든 내용을 다루고 있지는 않습니다. 각 개인의 고유한 문제나 필요에 대해서는 스스로 해결책을 찾아야 하는 경우가 많습니다. 

데이터에 근거한 자기개발 - Self-tracking

이런 한계에 대한 해결책으로, 최근 미국에서는 자기 삶에서 수집한 데이터에 근거하여 가설을 세우고, 이를 실험을 통해 검증하는 자기개발법이 확산되고 있습니다.  수집되는 데이터의 종류나 수집 방법에 따라 굉장히 다양한 형태가 있지만 이런 방식을 흔히 Self-tracking이라고 총칭합니다. 개인 정보를 수집한다는 측면에서 Self-tracking은 일종의 Life-logging이라고 볼 수도 있지만, Life-logging이 다양한 포멧의 데이터 수집, 검색 및 시각화에 초점을 맞추는 데 비해, Self-tracking은 정량적인 데이터에 근거한 분석 및 행동 변화(Behavioral Change)에 집중한다는 차이가 있습니다. Self-tracking의 구체적인 사례는 현재 Pinoeer중 한명인 Gary Wolf가 Wired지에 기고한 글에 잘 나타나 있습니다. 이를 잠깐 발췌해 소개합니다. 
 I got up at 6:20 this morning, after going to bed at 12:40 am. I woke up twice during the night. My heart rate was 61 beats per minute, and my blood pressure, averaged over three measurements, was 127/ 74. My mood was a 4 on a scale of 5. My exercise time in the last 24 hours was 0 minutes, and my maximum heart rate during exercise was not calculated. I consumed 400 milligrams of caffeine and 0 ounces of alcohol. And in case you were wondering, my narcissism score is 0.31 (more on that in a moment).
윗 글에 나타나듯, 자신의 신체 및 정신적 상태를 포함한 모든 정보가 계량화될 수 있습니다. 그리고, 이렇게 계량화된 정보는 자기 자신에 대해 객관적이고 정확한 지식을 제공합니다. 시간이 지나면서 이런 지식의 축적은 자기 자신과 자신의 삶에 대해 어떤 책에서도 얻을 수 없는 통찰을 제공할 것입니다. 이러한 통찰이 스스로를 변화시키는데 사용될 수 있으리라는 것은 너무나 자명합니다. 누군가가 쓴 책을 읽고, 무작정 따라하는 것이 아니라, 자신의 문제를 스스로 진단하고 나아가 해결책을 실험해볼 수 있는 것입니다. 

Self-tracking 경험을 공유하는 블로그 Quantified Self에 올라온 실제 사례를 살펴봅시다. Seth Roberts라는 사람은 버터를 먹거나 먹지 않고 정해진 유형의 수학 문제를 푸는데 걸리는 시간을 매일 측정하여 다음과 같은 결과를 얻었습니다. Seth는 이에 근거하여 버터에 포함된 영양소가 수학 문제 해결에 도움을 준다는 결론에 도달했다고 말합니다. 연구의 과학은 논외로 하더라도, 이런 '실험'은 작은 노력으로 개인이 자신의 삶에 영향을 끼치는 여러 요인을 분석할 수 있다는 것을 보여줍니니다.



왜 지금 Self-tracking인가?

이렇게 데이터에 근거하여 자신을 변화시킨다는 아이디어 자체가 새로운 것은 아닙니다. 대부분의 다이어트 프로그램에서 섭취 및 소비 칼로리를 기록하게 하는 것이나, 운동선수들이 정확한 측정을 통해 퍼포먼스를 향상시키는 등의 활동이 모두 일종의 Self-tracking에 해당할 것입니다. (이는 지난번에 소개한 Deliberate Practice의 개념과도 상통하는 부분입니다.)

하지만,  Self-tracking이 최근 각광받기 시작한 것은  스마토폰 등 언제 어디서나 자신의 정보를 기록하고 업데이트할 수 있는 수단이 보급되고 있기 때문입니다. 실제로 수많은 Self-tracking툴들이 iPhone 혹은 Android 앱이며, 그 수는 점점 늘어가고 있습니다. 또한 그중 많은 툴들이 Twitter등의 SNS서비스와 연동되어 자신의 목표달성 과정을 다른 사람들과 공유할 수 있게 되어 있습니다. 

나의 Self-tracking 경험

저 스스로 Self-tracking을 하고 있냐구요? 사실 저는 2002년부터 MyLEO라는 툴을 만들어 제 개인의 일정 및 지식을 관리해오고 있었습니다. MyLEO는 일정관리를 중심으로 하는데, 각 일정을 A부터 F까지 평가할 수 있는 특징이 있습니다. 그리고 이렇게 입력된 데이터는 다양한 방식으로 시각화될 수 있습니다. (아래 스크린샷 참조) 





약 3년간 툴을 만들면서 실험한 결과로 제 개인의 평균 행복도 (일정별 점수의 기간별 평균치)가 꾸준히 올라가는 것을 관찰할 수 있었으니 (아래 차트), 어느 정도는 성공한 실험이었다고 볼 수도 있을까요? 대학원에 와서는 다른 실험에 바빠지면서 이런 종류의 '실험'을 계속하지는 못하였으나, 최근 들어 다시 시작하고 있습니다. (저의 최근 실험에 대해서는 다음 포스팅을 기대하세요 ;)



관련 자료 & 맺음말

 현재 Self-tracking에 관련된 가장 광범위한 정보는 Gary Wolf등 몇몇 사람들이 만든 Quantified Self라는 블로그를 통해 얻으실 수 있습니다. 이 블로그에는 전세계 각지의 Self-tracker들이 모여 자신의 경험과 지식을 공유하고 있습니다. 저 역시 Boston Quantified Self Meet-up에 참가하여 TrackYourHappiness등 여러 재미있는 스터디에 관한 발표를 들은 적이 있습니다.

또한 Self-tracking은 Human-computer Interaction 및 Cognitive Psychology 분야의 학자들도 활발히 연구하기 시작한 분야입니다. 현재까지의 연구논문은 여기서 찾아보실 수 있습니다. 최근 HCI 분야의 가장 큰 학회인 CHI2010과 CHI2011에서는 이와 관련된 워크샵이 열리고 있습니다. 자기 스스로 데이터를 기록하는 문제, 데이터 기록이 다시 개인에 미치는 영향 등  다양한 관련 연구주제가 존재합니다.

데이터에 근거한 의사결정이 모든 면에서 일반화되어가는 요즈음, 개인의 성찰 및 성장을 위해 데이터를 사용한다는 생각은 어찌보면 너무나 당연해 보입니다. 이런 의미에서, Self-tracking은 아직 미국에서도 이제 소수의 사람들 사이에서 확산되기 시작한 새로운 트렌드이지만, 앞으로 무한한 발전 가능성이 엿보이는 분야입니다. 자기 스스로 데이터를 수집해 삶을 변화시킨다는 생각, 너무 Geeky한가요? 여러분은 어떤 종류의 Tracking을 하고 계신가요? (아니면 하고 싶으신가요?)

관련 자료 / 툴 모음
http://quantifiedself.com/self-tracking-links-to-get-you-started/
 http://personalinformatics.org/tools

광고 한말씀 : 지금 제가 운영하는 'EduHow - 유학생 커플의 공부 뒤집기'블로그에서 독자 설문을 진행중입니다. 유학에 관심있는 많은 독자분들의 참여 부탁드립니다!  여기서 설문에 참여하시면 됩니다.

정보검색을 위한 정보이론

검색공부하기 : 2011. 4. 3. 11:09   By LiFiDeA
최근 본 블로그 방문자들의 검색 키워드 통계를 보다가 '정보이론(Information Theory)'이 가장 높은 빈도를 차지한다는 것을 발견하였습니다. 정보이론은 많은 검색 및 기계학습 이론의 근간을 이루기는 하지만, 국내에 정보이론에 관심을 갖는 분들이 많다는 점은 뜻밖이었습니다. 혹은 정보이론에 대한 자료가 별로 없기 때문일수도 있겠다고 생각했습니다. 예전에 정보이론에 대한 글을 썼지만, 이번 기회에 다시 정보이론에 대해 정리해보기로 마음먹었습니다. 정보이론의 기본 개념 및 검색(IR) 및 기계학습 분야의 응용 몇가지를 알아봅시다.

정보이론에서 말하는 '정보'

하루에서 수십번씩 사용하는 말이 '정보'입니다. 정보이론에서 말하는 정보 역시 일종의 '앎'입니다. 하지만 정보이론의 정보는 '무지'의 반대말로 이해하는 것이 더 쉽습니다. 이런 '앎'의 개념은 '불확실성'과도 상통하는데, 어떤 대상에 대해 전혀 모를 경우 어떤 예측도 불가능하므로 가장 불확실성이 높고, 지식 수준의 높아질수록 불확실성도 낮아진다는 측면에서 그렇습니다.

정보이론의 핵심 개념인 '엔트로피(Entropy)'는 무질서도라고도 번역되는데, 어떤 앎의 불확실성을 측정하는 개념입니다. 정확한 정의는 지난번 글과  위키피디아를 참조하시고, 여기서는 '내일의 날씨'라는 정보를 예로 들어봅시다. 내일 날씨가 어떤지 전혀 감을 잡을 수 없을 경우 (맑음 50% / 흐림 50%) 엔트로피가 높고, 내일 흐릴 것이라고 거의 확실히 예측되는 경우  (맑음 10% / 흐림 90%) 엔트로피가 낮아집니다. 

정보이론이 유용한 이유

정보이론이 하나의 정보(확률분포)의 특성을 기술하는데만 쓰인다면 지금처럼 넓은 응용을 갖지는 못했을 것입니다. 정보이론의 진짜 가치는 임의의 확률분포 사이의 정량적인 비교를 가능하게 한다는 데 있습니다. 본질적으로 불확실한 대상에 대한 의사결정을 다루는 검색 및 기계학습의 여러 이론은 확률적으로 표현되는 대상간의 비교에 의존하기 때문에, 정보이론의 여러 지표(Information-theoretic Measure)가 유용한 것입니다.


그런 의미에서 저는 정보이론의 엔트로피를 '확률분포에 대한 절대값'이라고 규정하고 싶습니다. 마치 실수와 허수에 대해 각각 가감승제 연산을 통해 값을 비교할 수 있는 것처럼, 확률변수에도 다양한 연산법칙이 있습니다. 하지만, 양적인 비교를 가능케하는 절대값의 개념이 확률이론에는 없는데, 정보이론은 확률변수의 불확실성에 대한 평가 지표를 제공하는 것입니다. 이제 이들 지표에 대해 자세히 알아봅시다. 

하나의 대상에 대한 두가지 정보의 비교 : Cross Entropy & Relative Entropy

먼저, 특정 대상에 대한 여러 정보를 비교하는 경우를 알아봅시다. 확률 이론 관점에서는 Event Space가 동일한 여러 분포를 비교하는 것으로 생각할 수 있습니다. 이 경우 사용하는 지표가 Cross Entropy와 Relative Entropy(Kullback-Leibler Divergence)인데, 둘다 기준이 되는 확률분포 (P)와 다른 확률분포(Q) 사이의 차이를 측정를 측정합니다. 

지난번 글에서는 질의어와 문서를 모두 확률분포로 놓고, 질의어(P)와 가장 가까운 순서로 문서(Q)를 랭킹하는 검색 모델의 예를 들었는데, 이번에는 검색엔진의 성능을 예측(query performance prediction)하는데 사용되는 Query Clarity라는 기법의 예를 들어봅시다. 검색엔진의 성능을 '측정'하는데에는 검색 결과에 대한 사용자의 평가자료가 필요하기 때문에, 그런 데이터 없이 성능을 '예측'하는 기법이 의미를 갖습니다. 

Query Clarity는 문자 그대로 주어진 질의의 명확성을 측정하는데, 이는 명확한 질의가 (애매한 질의보다)더 좋은 성능을 낸다는 직관을 바탕으로 합니다. 그리고 질의의 명확성을 측정하는 방법으로 사용하는 것이 질의의 확률분포와 컬렉션 전체의 확률분포를 Relative Entropy를 사용해 비교하는 것입니다. 이를 수식으로 표현하면 다음과 같습니다. 



실제로 사용자의 질의는 굉장히 짧기 때문에, 질의어를 그대로 사용해 확률분포 P(w|Q)를 계산하기 보다는 질의어를 사용해 검색한 결과로 반환되는 Top-K 문서를 사용해 질의의 확률분포를 계산하게 됩니다. 좀더 자세한 사항은 논문을 참고하시기 바랍니다. 검색 성능의 예측은 그 결과에 따라 다양한 조치를 취하는 것을 가능하게 하기 때문에, 활발히 연구되는 분야입니다. 관련 분야의 Survey는 다음 논문을 참고하시기 바랍니다. 

 
각기 다른 대상에 대한 정보의 비교 : Mutual Information
 
위에서는 같은 대상에 대한 두 확률분포를 비교하는 기법을 알아보았는데, 서로 다른 대상에 대한 확률분포를 비교하는 기법이 Mutual Information입니다. Relative Entropy와는 달리 서로 다른 대상을 대상으로 하기에, Mutual Information은 두가지 확률분포의 '유사성'보다는 '독립성'을 측정하는 지표입니다.

 Mutual Information은 자연어처리에서 단어 의미 분간(disambiguation)등에 사용되기도 하지만, 여기서는 분류(classification)알고리즘의 속성 선택(feature selection)에 사용되는 경우를 알아봅시다. 속성 선택은 수많은 속성 중 가장 성능에 공헌도가 높은 속성만을 선별하는 기법으로, 기계학습 알고리즘의 성능을 높이는데 중요한 단계입니다. 

속성 선택에서 어떻게 Mutual Information을 활용할 수 있는지 알아봅시다. 분류 알고리즘을 만드는 데 가장 도움이 되는 속성은 분류 결과와 가장 유사한, 즉 dependency가 높은 속성일 겁니다. 예컨데 스팸 필터를 만드는 데 제목에 'XXX'라는 단어가 들어가는 문서가 100% 스팸이라면 굉장히 분류 작업에 유용하겠죠? 따라서, 문서 레이블의 분포 X와 속성값의 분포 Y간의 Mutual Information이 높을수록 해당 속성은 더 유용하다고 볼 수 있습니다. 


마치며

위에서 소개한 몇가지 지표는 사실 정보이론이라는 분야의 극히 일부분입니다. 검색 및 자연어처리에 자주 등장하는 기타 개념으로 Noisy Channel이 있는데, 흔히 음성언어 인식 및 기계번역이 Noisy Channel 문제로 간주되곤 합니다. 좀더 자세한 소개는 아래 적은 책들을 참고하시면 됩니다. 마지막으로 YouTube에도 엔트로피의 개념을 소개하는 비디오가 있어 소개합니다. 더 궁금하신 내용이 있으시면 답글로 남겨주세요.

참고자료
 
Foundations of Statistical NLP (book)
Information Theory, Inference, and Learning Algorithms : (book - free pdf available)
유학생들의 여가중 흔한 것이 한국 TV 시청입니다. 평소 TV를 자주 보는 편은 아니었지만 최근에 방영한 '나는 가수다' 를 재미있게 보았습니다. 단순 오락 프로그램이라고 치부할 수도 있지만, 이 프로그램의 의의, 그리고 이로 인한 논란의 파장은 작지 않다는 생각입니다. 여기서는 '나가수'의 긍정적인 측면을 생각해 보려 합니다.

기득권에 대한 정면 도전

본 프로그램의 방송 초기부터 포멧에 대한 논란이 있었습니다. 진중권씨 같은 분은 프로그램 자체가 넌센스라는 발언을 하기도 했습니다. 사실 평균 경력 10년의 정상급 가수들 중에 우열을 가린다는 아이디어 자체가 황당하기도 합니다. 하지만, 저는 이 프로그램의 의의를 높게 평가합니다. 실력보다 자격을 우선시하는 우리나라의 풍조에 도전한다는 측면을 주목하기 때문입니다.

올해가 데뷔 20주년이라는 김건모를 비롯해 첫 출연자 7명은 모두 자타가 공인하는 정상급 가수이고, 이런 의미에서 소위 말하는 '기득권층'의 범주에 속하는 사람들입니다. 이 가수들을 폄하하려는 의도는 없지만 (오히려 새로운 도전에 응한 용기를 높게 평가하고 싶습니다), 고인 물은 썩게 마련이고 엄밀한 평가시스템 없이 보장된 지위는 조만간 내실을 잃게 됩니다. 그런 의미에서 첫번째 탈락자로 논란의 초점이 되었던 김건모의 재도전에 관련된 다음 기사는 많은 것을 생각하게 합니다.
많은 사람들이 노래도 그렇지만, 무엇보다도 김건모의 이 떨리는 손에서 진심이 느껴졌다고 평했다. "천하의 김건모가 마이크 잡은 손을 그렇게 떨다니..", "20년차 가수가 그렇게 손을 부르르르 떠는 모습을 보고 눈물을 흘렸다", "손이 떨리는 압박과 긴장속에서도 음이 나가지 않고 제대로 무대를 마친 것에 박수를 보낸다", "손 떠는 것에서 비장함이 느껴졌다" 등의 반응이 줄을 이었다.  

김건모는 인터뷰를 통해 "'나는 가수다'는 생각을 많이 하게 하는 프로그램이다"라며 "내 인생의 터닝 포인트가 됐다. 나를 관리하게 됐고 다시 새로운 발을 내 딛는 계기가 됐다. 이 프로그램은 나를 출발선에 똑바로 설 수 있게 만들어줬다"고 말했다.

언제나 당당하고 여유롭고 위풍당당했던 20년차 가수 김건모의 떨리는 손은 이 프로그램의 핵심일지도 모른다. 자칫 오만해진 마음을 버릴 수 있었던 기회. 광풍같은 비난 속에 어렵게 얻은 기회를 최고의 노래로 보답해 준 김건모는 가수다.
'나가수'는 이처럼 대중음악계의 기득권층의 정점을 구성하는 7인의 가수에게 대중의 평가라는 (완벽하지는 않을지라도) 정직한 잣대를 들이댔습니다. 그리하여 그들 스스로도 놀랄 정도의 최고의 역량을 끌어내는 결과를 낳았고, 결국 대중들에게는 많은 감동을 선사했습니다. 타국에서 '좋은 음악'에 항상 굶주려있는 저같은 사람에게도 정말 오랜만에 맛보는 청량제였습니다. 결국 프로그램 자체도 엄청난 인기를 끌었고 출연 가수들도 대체로 긍정적인 결과를 얻었습니다. 

미국에 와서 많이 느끼는 점이지만, 우리나라에는 참 '기득권'이 많습니다. 한번 얻기는 쉽지 않지만 (그리고 그 과정에서는 비교적 공정한 잣대가 적용되지만) 일단 획득 후에는 안심할 수 있는 그런 자격 말입니다. 명문대 입학, 온갖 종류의 고시, 임용 후에는 별 실적없이도 자리를 보전할 수 있는 일부 직장 등이 모두 여기에 해당됩니다. 여기서는 '자격' 자체를 문제삼는 것이 아니라,  한번 OO는 영원한 OO식으로, 자격의 획득 이후에 전혀 평가나 검증이 이루어지지 않는 '성역화'를 우려하는 것입니다. 절대 권력은 결국 부패하기 마련이기 때문입니다.

'사회적 약속 이행' 대한 주의 환기

'나가수'가 우리사회에 던진 또하나의 화두는 '원칙의 가치' 입니다. 오락 프로에서의 '원칙'이 갖는 무게에 대한 다양한 논란이 있었지만, 저는 '김건모 재도전'의 혼란이 수습되는 과정이 우리나라에 '사회적 약속의 이행'라는 도덕규범이 수립에 도움을 줄 수 있을 것이라고 생각합니다.

미국에 와서야 비로소 느낀 것이지만, 우리나라는 모든 종류의 규칙 위반에 대해 상당히 관대한 편입니다.  좋게 보면 '정'의 문화이지만, 소속 조직의 비리를 고발하다 되려 피해를 보는 경우도 많고, 교통 범칙금 같은 경우에도 잘 이야기하면 넘어가는 경우도 있다고 하니 '지켜야 할 것'이 지켜지지 않는 경우도 많은 것 같습니다. (반면에 미국이라는 나라는 어떤 규칙도 예외없이 적용하는 비정함에 정이 떨어지기도 합니다 ;)

'나가수'의 경우에도 프로그램 중간에 몇번이나 강조했던 규칙을 처음부터 어겼다는 점에서 문제가 되었습니다. 퇴출 대상이 '최고참' 김건모가 아니었더라도 그런 사태가 벌어졌을지 상상해보면, (1회에서 7위를 한 정엽에 대한 동료 가수들의 반응을 떠올려봅시다) 원칙에 대한 경시, 그리고 그릇된 연공서열 등이 종합적으로 작용한 결과라는 것을 알 수 있습니다. 

어쩄든 많은 국민들이 이에 들고 일어났고, 결국 프로그램 결방 및 가수의 자진 사퇴라는 불미스러운 일이 있었지만, 이번 일을 계기로 (심지어 오락 프로그램에서도)  '사회적 약속'을 중히 여기고 실천하는 문화가 생길 수 있지 않을까 조심스레 희망해 봅니다. 

마치며

 위에서 언급한 우리 사회의 두가지 병폐 '기득권의 성역화' 및 '사회적 약속 경시'는 과정은 다르지만 결과는 같습니다. 정직하고 성실하게 노력하는 사람들의 힘을 빼앗고, 기득권이나 요령에 기대어 이득을 보려는 사람들이 활개치게 한다는 점입니다. 이런 병폐의 지속이 사회의 장기적인 발전을 저해할 것은 불을 보듯 뻔한 일입니다. 성격은 조금 다르지만, 안철수 교수님이 말하는 기득권의 과보호 역시 이와 비슷한 맥락에서 이해할 수 있을 것입니다. 

'나가수'가 가요계에 일으킨 신선한 바람이 사회 전반으로 확산되기를 기대해 봅니다. 이 프로그램에 대한 다른 시각을 다룬 컬럼을 소개하면서, 마지막으로 몇 가지 생각거리를 던져 봅니다. 여러분의 의견을 답글로 남겨주세요!

-. 구성원간의 경쟁은 어떨 때 사회 발전에 도움을 줄까요? '나가수'는 어떤가요? 
 
-. 사회 다른 분야에서 건전한 경쟁을 통해 좀더 발전할 수 있는 경우가 있을까요?

-. (마무리는 가볍게^^) 여러분은 어떤 가수가 좋으셨나요? 앞으로 더 보고 싶은 가수는? 
어느 연구분야에서나 사고의 틀을 잡기 위해 기초적으로 읽어야 할 것이 있습니다. 해당 분야를 몇년간 공부하다보면 자연스레 알게 되는 내용이지만, 처음 접하는 사람으로서 자료의 옥석을 가리기는 쉽지 않는 일입니다. 본 블로그에도 검색에 관련된 자료를 모은 페이지가 있습니다. 그동안 자주 업데이트하지 못하었지만, 최근에 다음과 같이 업데이트하었습니다.

Textbook
Articles
Recommended Reading for IR Research Students 
  : 2005년까지의 대표적인 검색 논문을 추천

Meeting of the MINDS: An Information Retrieval Research Agenda 
  : 2007년에 세계적 전문가들이 모여 앞으로의 IR 연구 추세를 전망

On the history of evaluation in IR 
  : 검색 품질 평가에 대한 대가의 역사적 기술 


Blog
The Noisy Channel : IR / HCI
FXPAL Blog : IR / HCI
Geeking with Greg
 : IR / ML

Conference
SIGIR : 학계 중심의 탑 컨퍼런스
WWW : 업계 중심의 탑 컨퍼런스
CIKM :  검색과 데이터베이스를 접목한 논문들

텍스트북이야 많이들 아시겠지만 최근에 두권이 더 출간되었습니다. 위에 소개한 수업자료와 Article도 한번씩 읽어보시기 바랍니다. (위에 소개한 UMass수업은 제가 TA및 수업 하나를 담당했습니다!) 위에 소개한 블로그 역시 웬만한 책 몇권에 해당하는 내용을 담고 있습니다. 마지막으로 주요 학회 논문 모음과, ETC 카테고리에 비디오 및 다른 곳에 소개된 검색 관련 자료모음을 소개하였습니다.

앞으로도 종종 업데이트하고, 제 트위터 등으로 공지하겠습니다. 마지막으로 본 블로그의 검색공부하기 카테고리의 글도 참고하세요. 기타 여러분께서 알고계시는 좋은 자료가 있으시다면 comment로 공유해주세요 ;)
블로그 개편 관련 포스팅을 한 후 하루만에 스무 분께서 설문에 응해주셨습니다. 설문에 응해주신 여러분께 감사드리며, 설문 결과를 및 개편 내용을 소개하겠습니다. 

설문 결과

우선 포스팅 주제 측면에서는 본 블로그의 주된 내용인 검색 연구에 관한 내용이 가장 큰 지지를 받는 것으로 나타났습니다. 기계학습 및 통계 등 검색의 기본이 되는 분야에 대한 소개를 원하시는 분들도 많았습니다. 다수는 아니었지만, 검색 사용자 / 퍼블리셔 관점의 주제인 검색 노하우나 SEO에 대한 관심도 어느 정도는 나타났습니다.



블로깅 방식에 대해서는 더 꾸준한 포스팅을 바라시는 분들이 압도적으로 많았습니다. 좀더 쉬운 포스팅을 주문하시는 분들도 있었습니다. 앞으로 이런 점을 고려하도록 하겠습니다.



개편 내용

이상 여러가지를 고려하여 블로그 개편을 단행하였습니다. 우선 '검색'이라는 테마에 좀더 집중하는 방향으로 제목을 바꾸었습니다. 

 
다소 산만하던 분류체계 역시 한 단계로 단순하게 바꾸었습니다. 카테고리 역시 '검색'이라는 테마에 집중되는 것을 보실 수 있습니다. 기타 초기화면의 불필요한 요소를 빼고 깔끔하게 정리하였습니다. 초기화면에서 제 트윗과 최근에 관심있게 읽은 블로그 포스팅 목록도 보실 수 있습니다. 


맺음말 : '소통'을 위한 블로그로

하루라는 짧은 시간인데도 많은 분들께서 격려말씀을 남겨주신 점 감사하게 생각합니다. 그동안 포스팅은 가끔 했지만, 블로깅의 본질이 '소통'에 있다는 사실을 간과하지 않았나 합니다. 앞으로 '검색'이라는 주제를 바탕으로 국내외 많은 분들과 소통할 수 있었으면 좋겠습니다!
 


며칠 후에 졸업 논문 Proposal 심사가 있습니다. 지금까지의 연구를 바탕으로 졸업논문에 대한 계획을 심사받는 자리인데, 졸업 1년 전쯤에 하는것이 보통입니다.  그동안 주로 다루었던 분야인 XML 문서의 검색, 개인정보검색의 평가 모델 등에 대한 Proposal을 썼으니, 졸업 논문의 틀은 잡힌 샘입니다. 

졸업 이후의 진로도 연구를 할 수 있는 회사를 가는 것으로 결정하였습니다. 그동안 학교에서는 연구에 필요한 이론적 배경과 학문적 접근 방법을 배울 수 있었지만, 검색 연구의 중심이 산업계로 이동하고 있는 상황이고, 개인적으로도 데이터와 실험 인프라가 잘 갖추어진 기업의 연구조직에 끌리는 것이 사실입니다. 그런 의미에서 올 여름은 Microsoft Research CLUES(Context, Learning, and User Experience for Search) 그룹에서 사용자 모델링 및 검색 개인화 관련 프로젝트를 하기로 했습니다. CLUES는 Susan Dumais를 필두로 IR과 HCI, 그리고 기계학습을 넘나드는 연구를 하는 그룹입니다.

블로깅에 대한 단상

이렇게 미래에 대한 큰 틀을 짜고 나서, 그동안 틈틈히 했던 블로그 활동을 돌아보게 됩니다. 사실 '본업'을 연구로 하다보니, 블로그에는 큰 노력을 기울이지 못했던 것이 사실입니다. 글은 종종 썼었지만 빈도나 소재 면에서 꾸준하지는 못했었고, 글을 매개로 한 소통에도 소극적이었습니다. 블로그를 통해서 자신을 표현하는 것 이상으로 독자분들과 많은 의견을 나누고픈 마음입니다. 

블로그의 테마 역시 고민한 부분입니다. 그동안 주로 연구와 기술동향에 관한 글을 썼는데, 대부분의 경우 기술 동향쪽의 글이 더 많은 관심을 끄는 것을 볼 수 있었습니다. 이런 측면에서 블로그라는 공간을 통해 설명하기 쉽지 않은 순수 연구적인 주제보다는, 검색엔진이 만들어내는 생태계를 좀더 거시적으로 다루어보다는 생각을 했습니다. 여기서 생태계라 함은, 검색엔진과 함께 검색 사용자(searcher)와 컨텐츠 제공자(publisher)를 아우르는 큰 틀을 말합니다.

아래 그림에서 검색 생태계를 이루는 세 축과 이에 관련된 이슈를 정리해 보았습니다. 우선 원 안에 있는 세가지 주제는 검색엔진이 담당하는 부분입니다. 검색엔진은 사용자에 대해서는 개인화(personalization)에 힘쓰고, 퍼블리셔에 대해서는 스팸 퇴치에 힘쓰고 있습니다. 또한 사용자와 퍼블리셔를 연결하는 것이 웹 광고의 핵심입니다.

원 밖의 주제는 검색 사용자 및 퍼블리셔가 담당하는 부분입니다. 우선 검색 사용자의 관점에서는 검색의 방법(Search Skill)이라는 주제가 있습니다. 주변에서 검색을 특히 잘 하는 사람을 볼 수 있는데, 그런 사람들의 비밀은 무엇일까요? 또한, 컨텐츠 퍼블리셔 입장에서는 웹 로그의 분석(Web Analytics)과 아울러 검색엔진 랭킹 높이기(Search Engine Optimization)가 중요한 주제입니다. 



이렇게 검색엔진을 문서 랭킹을 넘어선 '웹 생태계'라는 관점에서 보면 재미있는 주제가 많습니다. 그리고 위 그림에서 검색엔진이 담당하는 부분인 검색 개인화 / 웹 스팸 퇴치 / 검색 광고는 각각 매우 각광받는 연구주제입니다. 검색 광고 및 SEO는 제 전문분야는 아니지만, 검색 연구 경험을 바탕으로 접근해 볼 생각입니다. (그런 의미에서 블로그에 구글 광고를 달았습니다 ;)

블로깅 계획 & 독자 Survey
 
앞으로는 이렇게 좀더 폭넓은 주제에 걸쳐 블로깅을 해볼 생각입니다. 또한 방법 측면에서도 정보 전달 위주에서, 독자들과의 소통에 중점을 두고 해볼 생각입니다.  이런 차원에서 간단한 독자 Survey를 준비했습니다. 익명이며 단지 질문 3개에만 답해주시면 되니, 꼭 참여를 부탁드립니다.

  독자 Survey 바로가기 : http://goo.gl/MblQD
 

'공지사항' 카테고리의 다른 글

블로그 개편 : LiFiDeA의 검색 이야기  (0) 2011.03.17
2011년 새해인사  (2) 2011.01.04
2010년을 돌아보며 - 블로깅  (1) 2010.12.30
일만 시간의 법칙이라는 말을 들어보셨을 겁니다. 어떤 분야건 정상에 오르기 위해서는 10,000 시간(혹은 10년) 정도의 노력을 기울여야 한다는 연구결과에서 비롯된 말입니다. 하지만, 10년의 노력을 기울이고도 정상에 오르지 못하는 대부분의 사람들에게는 과연 어떤 문제가 있을까요? 얼마전에 읽은 'Talent is Overrated'라는 책 (번역서 : 재능은 어떻게 단련되는가?) 의 저자 제프 콜빈은 정상에 오른 사람들이 '주도면밀한 연습(deliberate practice)'을 한다는 면에서 일반인들과 구별된다고 주장합니다.

Deliberate Practice

이 책의 핵심 개념은 주도면밀한 연습(deliberate practice)입니다. 저자는 보통 연습과 주도면밀한 연습의 차이를 1) 적절한 난이도를 가진다 2) 취약한 부분에 집중된다 3) 견디기 힘들 정도까지 반복된다 4) 객관적인 피드백을 받는다 등으로 설명합니다. 즉, 다음 글에서 묘사하듯이 자신이 약한 부분을 찾고, 이를 적절한 피드백을 받으면서 힘겨울 정도까지 반복하며 보완해나가는 과정이 주도면밀한 연습입니다. 
"For the superior performer the goal isn't just repeating the same thing again and again but achieving higher levels of control over every aspect of their performance. That's why they don't find practice boring. Each practice session they are working on doing something better than they did the last time."
누구나 본능적으로 자신에게 편안한 일을 익숙한 방식으로 하려는 경향이 있는 것을 고려하면, 이처럼 자신이 취약한 부분을 한계치까지 계속 반복하는 것은 쉬운 일이 아닙니다. 저자는 특히 피드백의 중요성을 강조하는데, 제대로 된 피드백이 없는 연습은 '무릎까지 오는 커튼을 쳐놓고 볼링을 치는 것과 같다'고 말합니다. 장기간의 연습 끝에 찾아오기 마련인 타성도 극복해야 할 대상입니다. 이에 대한 저자의 설명을 들어봅시다.
Great performers never allow themselves to reach the automatic, arrested development stage in their chosen field. The essence of practice, which is constantly trying to do the things one cannot do comfortably, makes automatic behavior impossible.
주도면밀한 연습은 이처럼 Comfort Zone에 머무르려는 인간의 본성에 반하며, 의지만으로 가능한 일도 아닙니다. (예컨데 즉각적이고 효과적인 피드백은 전문가를 항상 곁에 둘수있는 극히 제한된 사람에게만 허락되는 기회입니다.) 이렇게 보면 어느 분야건 정상에 도달하는 사람들의 수가 극히 적은 것도 이해가 갑니다. 

Why Does It Work?

저자는 장기간에 걸처 주도면밀한 연습을 반복할 경우, 상황의 미묘한 차이를 분간해내는 지각 능력이 생기고, 해당 분야의 전문 지식이 쌓이면서 새로운 지식을 흡수하고 기억하는 능력도 향상된다고 주장합니다. 이런 과정을 통해 해당 분야에 대한 '살아있는 지식'이 쌓이는 과정을 저자는 다음과 같이 묘사합니다. 

Constantly trying to extend one's abilities requires amassing additional knowledge, and staying at it for years develops the critical connections that organize all that knowledge and make it useful.

즉, 끊임없이 능력을 개발하면서 지식을 쌓아가는 과정에서 정상급 성과를 내는데 필수적인 지적 능력을 갖추게 된다는 것입니다. 


Deliberate Practice & Knowledge Worker


위에서 설명하는 주도면밀한 연습의 개념을 들으며 운동선수나 음악가 등의 훈련을 떠올리는 분이 많으실 겁니다. 하지만, 저는 얼핏 정확한 계량화가 어려워 보이는 일반 업무에도 이런 개념을 적용할 수 있다고 믿습니다. 즉, 1) 자신의 핵심 업무를 그 구성요소로 나누고, 2) 각 구성요소별 평가 및 연습방법을 고안하고, 3) 취약점을 중심으로 꾸준히 연습하고, 4) 적절한 피드백을 받으며 이를 계속한다면, 주도적인 연습을 하는 것입니다. 대학원생인 저의 주된 업무라고 할 '연구'를 예로 들어봅시다. 연구의 구성요소는 다음 몇가지 프로세스로 나눌 수 있습니다.

  1. 흥미있있고 해결가능한(tractable) 문제를 찾고
  2. 관련 분야의 지식을 습득하여
  3. 기존에 제시되지 않은 새로운 해결책을 고안하고
  4. 이를 실험을 통해 증명한 후
  5. 출판 / 발표 등의 형태로 커뮤니케이션한다
위에서 소개한 각각의 요소에 실력을 갖추는 것을 목표로 삼고, 그 중 2) '지식 습득' 이라는 측면이 스스로 취약하다고 가정해 봅시다. 학문적 지식 습득의 대표적인 형태는 논문을 읽는 것인데, 논문을 읽는다는 행위에 대한 '주도면밀한 연습'을 다음과 같이 설계할 수 있습니다. 
  • 스스로에게 벅찬 양을 정해놓고 꾸준히 읽는다.
  • 논문당 시간을 정해놓고 읽는다.
  • 여러 기준으로 논문을 평가해보고, 주변 사람들과 비교해본다.
  • 리뷰를 작성하고, 이에 대한 피드백을 받는다.
위와같이, '논문읽기'라는 단순한 행위에도 주도면밀한 연습의 개념을 도입하면, 상당히 도전적인 과제로 만들 수 있습니다. 논문 하나도 이런 식으로 읽다보면, 힘은 들어도 시간에 따라 발전해가는 자신을 발견할 수 있을 것입니다. 

Epilog

이 책의 저자는 '주도면밀한 연습'이라는 개념을 많은 일화와 연구결과를 바탕으로 설명하고 있지만, 우리 고전에도 나태함을 경계하고 주변의 가르침에 귀를 기울이며 스스로를 연마해가는 절차탁마의 자세가 자주 등장하는 것을 보면, 진리는 하나로 통하는가 봅니다. 10년이라면 길게 느껴지지만, 20세에 시작하면 30대에는 정상급 전문가가 될 수 있을테니 해볼만한 일이 아닐까요? 주도면밀한 노력의 단순한 개념에 비해 그 적용은 쉽지 않으니, 다음 논문과 글을 참고하시기 바랍니다. 

References