시애틀에서 벌써 두달을 보내고 일주일간의 휴가를 얻었습니다. 인턴 기간중에는 블로그에 글을 쓰기가 쉽지 않았습니다. 예전에도 최선을 다하는 것이 최선이 아니다는 글을 쓴 적이 있지만, 한가지에 집중하다 보면 주변을 돌보지 못하는 것은 어른으로서 고치고 싶은 습관입니다. 어쨌든 두 달간 열심히 일했고, 다음 주는 여러 의미에서 쉬어가는 기간을 가지려고 합니다. 이번 휴가 기간에 스스로에게 몇가지 약속한 일이 있습니다. 

1) 내면에 귀를 기울일 것 

2) 서두르거나 무리하지 않을 것

3) 주변을 돌볼 것

일주일 뒤에 조금은 느슨해지고 비뚤어진 일상이 제자리를 찾았으면 하는 바랩입니다. 휴가 기간동안 인턴 생활을 통해 배우고 느낀 점을 차근 차근 정리해 올리려고 합니다. 

ECIR 학회 참석 & 아일랜드 풍경

유학생활 : 2011. 5. 1. 13:25   By LiFiDeA
지난주에 아일랜드 더블린(Dublin)에서 열린 ECIR (European Conference for Information Retrieval)학회를 마치고 돌아왔습니다. 지난 글에서 소개했지만,  ECIR은 정보검색 연구의 중요한 축을 형성하고 있는 유럽에서 매년 열리는 메이저 컨퍼런스입니다. 

ECIR 컨퍼런스의 개최를 알리는 발표

4월의 아일랜드의 풍광 역시 눈부셨습니다. 더블린은 흐리고 궂은 날씨로 유명한 곳이지만, 다행히도 지난주에는 비가 오다가도 하루에 한번은 햇빛이 비치는 좋은 날씨었습니다. 더블린 하면 기네스 맥주를 떠올리는 분들이 많으실텐데, 더블린은 밤이 되면 도시 전체가 거대한 펍(pub)과 같은 흥겨운 분위기입니다. 모든 것이 거대하지만 다소 삭막한 미국 거리에 익숙해져 있다가 아기자기하고 사람 냄새가 나는 유럽에 가면 항상 정겨운 느낌입니다. 

아일랜드의 중심가 Temple Bar지역의 대표 Pub

매번 학회에 참석할때마다  느끼는 점이지만, 이번에도 4일간 정신없이 배우고 느끼고, 사람들과 만나면서 머리가 리셋되는 느낌을 받았습니다. 마음에서 타성과 묵은 찌꺼기는 날아가고, 그 자리를 다시 호기심과 새로운 각오가 채우는 그런 transformative한 경험이었습니다.

처음 학회에 참석했을 때 여러가지로 난감했던 일을 떠올리며 EduHow에 학회 참석에 대한 몇가지 생각을 적었습니다. 관심있는 분께서는 학회 준비에 관한 지난 포스팅과 함께 참고하시기 바랍니다. 
작년에 시애틀에서 뵈었던 HKUST의 김성훈 교수님께서 쓰신 학회에 *잘* 참여하기라는 글을 재미있게 읽었습니다. 저널을 중시하는 다른 분야와 달리 Computer Science 분야에서는 최신 연구 성과가 학회를 통해 확산되는 경우가 많은 것 같습니다. 따라서, 학회에 참여하여 사람들과 소통하고 정보를 얻는 것이 연구자로서 중요한 일입니다. 

내일 ECIR'11 학회 참석을 위해 아일랜드 더블린(Dublin)으로 출국합니다. 프랑스 툴루즈에서 열렸던 ECIR'09가 생애 첫 학회참석이었으니, 제게는 고향같은 학회입니다. 이번이 6번째 학회 참석이니 초보티는 많이 벗었지만, 아직도 학회 참석은 여러가지 준비를 필요로 합니다. 김성훈 교수님꼐서 전해주신 교훈을 떠올리며, ECIR'11학회 소개를 겸한 저의 준비 과정을 적어볼까 합니다. 

논문 발표 / 워크샵 준비

가장 먼저 준비할 것은 제 연구에 대한 발표입니다. 이번 논문의 제목은 An Analysis of Time-instability in Web Search Results으로, 작년 Bing에서 했던 연구의 일부입니다. 어제 연구실 사람들과 Practice Talk을 했고, 발표 전날 더 연습을 할 생각입니다.  출발 전에 하는 연습은 주로 슬라이드에 대한 피드백을 얻는데, 전날 하는 연습은 발표에 대한 피드백을 얻는데 유용합니다. 발표자료는 몇 부 더 출력하여 학회 중간중간 사람들을 만났을 때 사용할 수 있도록 준비합니다.

본 학회가 모든 주제를 망라하는 큰 소통의 장이라면, 워크샵은 특정 세부분야의 연구자들이 논문 발표 및 좀더 심도있는 논의를 하는 작은 학회라고 할 수 있습니다. 사실, 저의 경우 논문 주제도 참가자들의 배경도 너무 광범위한 본 학회보다는 자신의 관심분야를 워크샵에서 더 많이 배운다는 느낌입니다.

특히, 이번 학회에서는 저와 동료 연구자 몇명이 개인정보 검색의 평가에 대한 웍샵(Evaluating Personal Search Workshop)을 진행하게 되었습니다. 개인정보의 검색은 데이터의 Privacy문제로 평가가 쉽지 않은데, 이에 대한 평가모델을 논의하는 것이 이번 웍샵의 주제입니다. 성공적인 웍샵을 위해 다른 Chair들과 발표자료 및 세부 일정을 협의하고, 학회 참가자들을 대상으로 웍샵을 흥보하는 것이 필요합니다. 

학회에는 또한 특정 주제에 대해 전문가의 강의를 듣는 튜토리얼이 있습니다.  이번 학회에서는 워크샵과 같은날 Tutorial을 진행하기 때문에 직접 참석은 힘들지만, 튜토리얼을 진행하는 분들께 연락하여 강의자료를 얻고, 학회 중간중간 궁금한 점을 질의할 생각입니다. 본 학회의 튜토리얼은 다음과 같습니다.



 관심 논문 뽑기

학회 참석의 주요 행사는 역시 페이퍼 / 포스터 발표 세션입니다. 하지만, 발표되는 논문 모두를 현장에서 소화한다는 것은 불가능에 가깝습니다.  학회를 마치고 나서 저녁 시간이 있지 않냐고요? 학회 중에는 자신의 발표 준비 및 연회 참석 등으로 바빠서 잠도 설치는 것이 보통입니다. 

따라서 미리 관심 논문을 추려서 찾고, 가능한 미리 훑어봅니다. 많은 저자들이 자신의 논문을 개인 홈페이지에 올려놓기 때문에 웹 검색을 통해 많은 논문을 찾을 수 있고, 그중 특히 관심이 가는 논문은 저자에게 메일을 통해 논문을 요청하기도 합니다. (이를 통해 사전에 저자와 인사하게 되는 효과도 있습니다!) ECIR'11에서 제 연구분야에 해당하는 관심 논문은 다음과 같습니다.

What Makes Re-finding Information Difficult? A Study of Email Re-finding

David Craig Elsweiler1, Mark Baillie2, Ian Ruthven2

1University of Erlangen, Germany; 2University of Strathclyde, United Kingdom


A Methodology for Evaluating Aggregated Search Results

Jaime Arguello1, Fernando Diaz2, Jamie Callan1, Ben Carterette3

1Carnegie Mellon University; 2Yahoo! Research; 3University of Delaware


Learning Models for Ranking Aggregates

Craig Macdonald, Iadh Ounis

University of Glasgow, United Kingdom



주 연구분야가 아니라도 관심이 가는 논문을 추려봅니다. 이렇게 하면 어느 세션에 참석할지 (보통 학회는 여러 세션이 동시에 진행됩니다.) 미리 결정할 수 있습니다. 이번 학회에는 Evaluation측면에서 흥미있는 논문이 많이 보입니다.  검색 평가의 Hot 트렌드 중 하나인 Crowdsourcing (Amazon Mechanical Turk) 관련 논문도 두편이나 있습니다. 


On the contributions of topics to system evaluation

Stephen E Robertson

Microsoft Research Cambridge, United Kingdom


In Search of Quality in Crowdsourcing for Search Engine Evaluation

Gabriella Kazai

Microsoft Research, United Kingdom


Design and Implementation of Relevance Assessments using Crowdsourcing

Omar Alonso1, Ricardo Baeza-Yates2

1Microsoft, United States of America; 2Yahoo


Exploiting Thread Structures to Improve Smoothing of Language Models for Forum Post Retrieval

Huizhong Duan, Chengxiang Zhai

UIUC, United States of America


AutoEval: An Evaluation Methodology for Evaluating Query Suggestions Using Query Logs

M-Dyaa Albakour1, Nikolaos Nanas2, Udo Kruschwitz1, Maria Fasli1, Yunhyong Kim3, Dawei Song3, Anne DeRoeck4

1University of Essex, United Kingdom; 2Centre for Research and Technology, Greece;3Robert Gordon University, United Kingdom; 4Open University



개인적으로 아는 저자의 논문 역시 미리 읽어두면 좋겠죠? 다음은 한국 저자들의 논문입니다. 


Text Classification for a Large-Scale Taxonomy using Dynamically Mixed Local and Global Models for a Node

Heung-Seon Oh, Yoonjung Choi, Sung-Hyon Myaeng

KAIST, Korea, South (Republic of)


Smoothing Click Counts for Aggregated Vertical Search

Jangwon Seo1, W. Bruce Croft1, Kwang Hyun Kim2, Joon Ho Lee2

1University of Massachusetts Amherst, United States of America; 2NHN Corp., South Korea



사람들과 연락 / 일정잡기
 

 관심 논문을 고르다 보면 누구와 만날 것인지도 어느 정도 윤곽이 잡힙니다. 유명한 학자일수록 꼭 이야기하고 싶다면 미리 연락을 취하는 것이 필요합니다. 학회는 또한 구인/구직의 장이기도 합니다. 예컨데 회사에서의 여름 인턴을 생각하고 있다면 해당 회사에서 나오는 논문을 주의깊게 볼 필요가 있을 겁니다.  이렇게 관심 논문을 결정하고 사람들과 약속이 잡다보면 '이번 학회에서 무엇을 배울 수 있겠구나...'
하는 윤곽이 잡힙니다.

저의 경우, 역시 워크샵을 함께 진행할 David Eilsweiler, Leif Azzopardi등 Interactive IR 및 개인정보의 검색을 주로 연구하는 분들과 많은 시간을 보낼 것 같습니다. 또한, 올 여름에 MSR에서 같이 일하게 될 Kevyn Collins-Thompson이 튜토리얼 진행을 위해 학회에 참석하기 때문에, 종종 만나 인턴 프로젝트에 대해 의논할 생각입니다. 또한 유럽에서 Interactive IR 연구로 유명한 Tony Russell-Rose라는 분도 만나뵐 계획입니다. 

기타 준비

이외에도 아무래도 장거리 여행인만큼 기타 잡다한 준비가 많습니다. 현재 규격에 맞는 전기 어댑터, 무선랜이 제공되지 않을 경우 유용한 랜케이블등이 떠오릅니다. 또한 비행기 check-in 및, 현지 화폐로의 환전 역시 필요한 준비 중 하나입니다.  현지 날씨 및 교통, 문화적 차이에 대해서는 보통 컨퍼런스에서 제공하는 가이드북을 참고하는 것이 좋습니다. 지난번 CIKM'10에서 유용하게 사용한 iPad에도 읽을거리를챙겨 넣습니다. 

또한 직접 출력한 것이라도 좋으니 명함(Business Card)을 준비하라고 말씀드리고 싶습니다. 아무리 트위터와 페이스북의 시대라고는 하지만, 바쁜 하루를 마치고 숙소에 왔을 떄 들어있는 명함 때문에 다시 연락했던 분들이 많거든요. 

마치며

학회 참석은 역시 즐거워야 하는데 학회 준비가 연구에 너무 치중했나요? 제 경험으로는 (역설적으로) 이런 준비가 충실할수록 본 학회에서는 다른 생각 없이 순간순간을 즐길 수 있게 되는 것 같습니다.  물론 맥주의 나라 아일랜드이니만큼 좋은 Pub도 몇개 알아두었습니다 ;)

첫 학회 참석을 앞두고서는 기대만큼이나 긴장감이 컸었던것 같은데, 이번에는 예전과는 달리 익숙한 사람들과 다시 만난다는 편안한 마음입니다. 학회 중에도 시간이 허락하는 대로 블로깅을 해볼 생각이니 기대해 주세요!

'자기개발'에 관심이 있으십니까? 예전에는 학생이나 사회 초년생들이 관심을 갖는 주제였지만, '직장인들 사이에서 자기개발이 붐'이라는 식의 기사를 보면 많은 분들이 관심을 갖는 주제가 아닐까 합니다. 하지만, 특정한 외부적 자극이 없는 상태에서 스스로를 발전시킨다는 것이 쉬운 이야기는 아닙니다. 저의 경우에도 자기개발은 오랜 화두였지만, 관심과 의욕은 높으면서도 지속적인 실천이 쉽지 않은 까닭에 잦은 시행착오를 겪었습니다. 

자기개발의 가장 흔한 형태 - 독서

자기개발은 역시 독서을 통해 하는 것이 가장 일반적인 방식이 아닌가 합니다. 우리나라에서도 소위 '자기개발서'가 출간되는 책 중에 살당수를 차지하지만, 미국에서도 Self-help라고 하는 자기개발 분야는 출판물을 중심으로 거대한 시장을 형성하고 있습니다. 최근에는 자기개발을 위한 컨설팅 등의 서비스를 제공하는 Life-coaching이라는 직업군까지 등장할 정도이니, 그 열기는 보통이 아닙니다. 아래 그림에서 보듯, '자기개발'에는 다양한 세부 분야가 존재합니다.



프랭클린 플래너나 GTD (Getting Things Done)등의 방법론과 툴이 결합된 형태를 제외하면, 전통적인 자기개발은 이처럼 책에서 본 내용을 개인 각자의 의지에 따라 실천하는 형태를 띕니다. 하지만 여기에는 몇가지 한계가 있습니다. 1) 책에서 설명하는 내용은 저자 입장에서 기술한 것이라 독자 개개인의 상황에 맞는 처방이 아닐수도 있습니다. 2) 책에서 설명한 내용을 이해한다고 해도 의지력만으로 지속적인 실천을 하기란 쉬운 일이 아닙니다. 3) 책에서 모든 내용을 다루고 있지는 않습니다. 각 개인의 고유한 문제나 필요에 대해서는 스스로 해결책을 찾아야 하는 경우가 많습니다. 

데이터에 근거한 자기개발 - Self-tracking

이런 한계에 대한 해결책으로, 최근 미국에서는 자기 삶에서 수집한 데이터에 근거하여 가설을 세우고, 이를 실험을 통해 검증하는 자기개발법이 확산되고 있습니다.  수집되는 데이터의 종류나 수집 방법에 따라 굉장히 다양한 형태가 있지만 이런 방식을 흔히 Self-tracking이라고 총칭합니다. 개인 정보를 수집한다는 측면에서 Self-tracking은 일종의 Life-logging이라고 볼 수도 있지만, Life-logging이 다양한 포멧의 데이터 수집, 검색 및 시각화에 초점을 맞추는 데 비해, Self-tracking은 정량적인 데이터에 근거한 분석 및 행동 변화(Behavioral Change)에 집중한다는 차이가 있습니다. Self-tracking의 구체적인 사례는 현재 Pinoeer중 한명인 Gary Wolf가 Wired지에 기고한 글에 잘 나타나 있습니다. 이를 잠깐 발췌해 소개합니다. 
 I got up at 6:20 this morning, after going to bed at 12:40 am. I woke up twice during the night. My heart rate was 61 beats per minute, and my blood pressure, averaged over three measurements, was 127/ 74. My mood was a 4 on a scale of 5. My exercise time in the last 24 hours was 0 minutes, and my maximum heart rate during exercise was not calculated. I consumed 400 milligrams of caffeine and 0 ounces of alcohol. And in case you were wondering, my narcissism score is 0.31 (more on that in a moment).
윗 글에 나타나듯, 자신의 신체 및 정신적 상태를 포함한 모든 정보가 계량화될 수 있습니다. 그리고, 이렇게 계량화된 정보는 자기 자신에 대해 객관적이고 정확한 지식을 제공합니다. 시간이 지나면서 이런 지식의 축적은 자기 자신과 자신의 삶에 대해 어떤 책에서도 얻을 수 없는 통찰을 제공할 것입니다. 이러한 통찰이 스스로를 변화시키는데 사용될 수 있으리라는 것은 너무나 자명합니다. 누군가가 쓴 책을 읽고, 무작정 따라하는 것이 아니라, 자신의 문제를 스스로 진단하고 나아가 해결책을 실험해볼 수 있는 것입니다. 

Self-tracking 경험을 공유하는 블로그 Quantified Self에 올라온 실제 사례를 살펴봅시다. Seth Roberts라는 사람은 버터를 먹거나 먹지 않고 정해진 유형의 수학 문제를 푸는데 걸리는 시간을 매일 측정하여 다음과 같은 결과를 얻었습니다. Seth는 이에 근거하여 버터에 포함된 영양소가 수학 문제 해결에 도움을 준다는 결론에 도달했다고 말합니다. 연구의 과학은 논외로 하더라도, 이런 '실험'은 작은 노력으로 개인이 자신의 삶에 영향을 끼치는 여러 요인을 분석할 수 있다는 것을 보여줍니니다.



왜 지금 Self-tracking인가?

이렇게 데이터에 근거하여 자신을 변화시킨다는 아이디어 자체가 새로운 것은 아닙니다. 대부분의 다이어트 프로그램에서 섭취 및 소비 칼로리를 기록하게 하는 것이나, 운동선수들이 정확한 측정을 통해 퍼포먼스를 향상시키는 등의 활동이 모두 일종의 Self-tracking에 해당할 것입니다. (이는 지난번에 소개한 Deliberate Practice의 개념과도 상통하는 부분입니다.)

하지만,  Self-tracking이 최근 각광받기 시작한 것은  스마토폰 등 언제 어디서나 자신의 정보를 기록하고 업데이트할 수 있는 수단이 보급되고 있기 때문입니다. 실제로 수많은 Self-tracking툴들이 iPhone 혹은 Android 앱이며, 그 수는 점점 늘어가고 있습니다. 또한 그중 많은 툴들이 Twitter등의 SNS서비스와 연동되어 자신의 목표달성 과정을 다른 사람들과 공유할 수 있게 되어 있습니다. 

나의 Self-tracking 경험

저 스스로 Self-tracking을 하고 있냐구요? 사실 저는 2002년부터 MyLEO라는 툴을 만들어 제 개인의 일정 및 지식을 관리해오고 있었습니다. MyLEO는 일정관리를 중심으로 하는데, 각 일정을 A부터 F까지 평가할 수 있는 특징이 있습니다. 그리고 이렇게 입력된 데이터는 다양한 방식으로 시각화될 수 있습니다. (아래 스크린샷 참조) 





약 3년간 툴을 만들면서 실험한 결과로 제 개인의 평균 행복도 (일정별 점수의 기간별 평균치)가 꾸준히 올라가는 것을 관찰할 수 있었으니 (아래 차트), 어느 정도는 성공한 실험이었다고 볼 수도 있을까요? 대학원에 와서는 다른 실험에 바빠지면서 이런 종류의 '실험'을 계속하지는 못하였으나, 최근 들어 다시 시작하고 있습니다. (저의 최근 실험에 대해서는 다음 포스팅을 기대하세요 ;)



관련 자료 & 맺음말

 현재 Self-tracking에 관련된 가장 광범위한 정보는 Gary Wolf등 몇몇 사람들이 만든 Quantified Self라는 블로그를 통해 얻으실 수 있습니다. 이 블로그에는 전세계 각지의 Self-tracker들이 모여 자신의 경험과 지식을 공유하고 있습니다. 저 역시 Boston Quantified Self Meet-up에 참가하여 TrackYourHappiness등 여러 재미있는 스터디에 관한 발표를 들은 적이 있습니다.

또한 Self-tracking은 Human-computer Interaction 및 Cognitive Psychology 분야의 학자들도 활발히 연구하기 시작한 분야입니다. 현재까지의 연구논문은 여기서 찾아보실 수 있습니다. 최근 HCI 분야의 가장 큰 학회인 CHI2010과 CHI2011에서는 이와 관련된 워크샵이 열리고 있습니다. 자기 스스로 데이터를 기록하는 문제, 데이터 기록이 다시 개인에 미치는 영향 등  다양한 관련 연구주제가 존재합니다.

데이터에 근거한 의사결정이 모든 면에서 일반화되어가는 요즈음, 개인의 성찰 및 성장을 위해 데이터를 사용한다는 생각은 어찌보면 너무나 당연해 보입니다. 이런 의미에서, Self-tracking은 아직 미국에서도 이제 소수의 사람들 사이에서 확산되기 시작한 새로운 트렌드이지만, 앞으로 무한한 발전 가능성이 엿보이는 분야입니다. 자기 스스로 데이터를 수집해 삶을 변화시킨다는 생각, 너무 Geeky한가요? 여러분은 어떤 종류의 Tracking을 하고 계신가요? (아니면 하고 싶으신가요?)

관련 자료 / 툴 모음
http://quantifiedself.com/self-tracking-links-to-get-you-started/
 http://personalinformatics.org/tools

광고 한말씀 : 지금 제가 운영하는 'EduHow - 유학생 커플의 공부 뒤집기'블로그에서 독자 설문을 진행중입니다. 유학에 관심있는 많은 독자분들의 참여 부탁드립니다!  여기서 설문에 참여하시면 됩니다.

정보검색을 위한 정보이론

검색공부하기 : 2011. 4. 3. 11:09   By LiFiDeA
최근 본 블로그 방문자들의 검색 키워드 통계를 보다가 '정보이론(Information Theory)'이 가장 높은 빈도를 차지한다는 것을 발견하였습니다. 정보이론은 많은 검색 및 기계학습 이론의 근간을 이루기는 하지만, 국내에 정보이론에 관심을 갖는 분들이 많다는 점은 뜻밖이었습니다. 혹은 정보이론에 대한 자료가 별로 없기 때문일수도 있겠다고 생각했습니다. 예전에 정보이론에 대한 글을 썼지만, 이번 기회에 다시 정보이론에 대해 정리해보기로 마음먹었습니다. 정보이론의 기본 개념 및 검색(IR) 및 기계학습 분야의 응용 몇가지를 알아봅시다.

정보이론에서 말하는 '정보'

하루에서 수십번씩 사용하는 말이 '정보'입니다. 정보이론에서 말하는 정보 역시 일종의 '앎'입니다. 하지만 정보이론의 정보는 '무지'의 반대말로 이해하는 것이 더 쉽습니다. 이런 '앎'의 개념은 '불확실성'과도 상통하는데, 어떤 대상에 대해 전혀 모를 경우 어떤 예측도 불가능하므로 가장 불확실성이 높고, 지식 수준의 높아질수록 불확실성도 낮아진다는 측면에서 그렇습니다.

정보이론의 핵심 개념인 '엔트로피(Entropy)'는 무질서도라고도 번역되는데, 어떤 앎의 불확실성을 측정하는 개념입니다. 정확한 정의는 지난번 글과  위키피디아를 참조하시고, 여기서는 '내일의 날씨'라는 정보를 예로 들어봅시다. 내일 날씨가 어떤지 전혀 감을 잡을 수 없을 경우 (맑음 50% / 흐림 50%) 엔트로피가 높고, 내일 흐릴 것이라고 거의 확실히 예측되는 경우  (맑음 10% / 흐림 90%) 엔트로피가 낮아집니다. 

정보이론이 유용한 이유

정보이론이 하나의 정보(확률분포)의 특성을 기술하는데만 쓰인다면 지금처럼 넓은 응용을 갖지는 못했을 것입니다. 정보이론의 진짜 가치는 임의의 확률분포 사이의 정량적인 비교를 가능하게 한다는 데 있습니다. 본질적으로 불확실한 대상에 대한 의사결정을 다루는 검색 및 기계학습의 여러 이론은 확률적으로 표현되는 대상간의 비교에 의존하기 때문에, 정보이론의 여러 지표(Information-theoretic Measure)가 유용한 것입니다.


그런 의미에서 저는 정보이론의 엔트로피를 '확률분포에 대한 절대값'이라고 규정하고 싶습니다. 마치 실수와 허수에 대해 각각 가감승제 연산을 통해 값을 비교할 수 있는 것처럼, 확률변수에도 다양한 연산법칙이 있습니다. 하지만, 양적인 비교를 가능케하는 절대값의 개념이 확률이론에는 없는데, 정보이론은 확률변수의 불확실성에 대한 평가 지표를 제공하는 것입니다. 이제 이들 지표에 대해 자세히 알아봅시다. 

하나의 대상에 대한 두가지 정보의 비교 : Cross Entropy & Relative Entropy

먼저, 특정 대상에 대한 여러 정보를 비교하는 경우를 알아봅시다. 확률 이론 관점에서는 Event Space가 동일한 여러 분포를 비교하는 것으로 생각할 수 있습니다. 이 경우 사용하는 지표가 Cross Entropy와 Relative Entropy(Kullback-Leibler Divergence)인데, 둘다 기준이 되는 확률분포 (P)와 다른 확률분포(Q) 사이의 차이를 측정를 측정합니다. 

지난번 글에서는 질의어와 문서를 모두 확률분포로 놓고, 질의어(P)와 가장 가까운 순서로 문서(Q)를 랭킹하는 검색 모델의 예를 들었는데, 이번에는 검색엔진의 성능을 예측(query performance prediction)하는데 사용되는 Query Clarity라는 기법의 예를 들어봅시다. 검색엔진의 성능을 '측정'하는데에는 검색 결과에 대한 사용자의 평가자료가 필요하기 때문에, 그런 데이터 없이 성능을 '예측'하는 기법이 의미를 갖습니다. 

Query Clarity는 문자 그대로 주어진 질의의 명확성을 측정하는데, 이는 명확한 질의가 (애매한 질의보다)더 좋은 성능을 낸다는 직관을 바탕으로 합니다. 그리고 질의의 명확성을 측정하는 방법으로 사용하는 것이 질의의 확률분포와 컬렉션 전체의 확률분포를 Relative Entropy를 사용해 비교하는 것입니다. 이를 수식으로 표현하면 다음과 같습니다. 



실제로 사용자의 질의는 굉장히 짧기 때문에, 질의어를 그대로 사용해 확률분포 P(w|Q)를 계산하기 보다는 질의어를 사용해 검색한 결과로 반환되는 Top-K 문서를 사용해 질의의 확률분포를 계산하게 됩니다. 좀더 자세한 사항은 논문을 참고하시기 바랍니다. 검색 성능의 예측은 그 결과에 따라 다양한 조치를 취하는 것을 가능하게 하기 때문에, 활발히 연구되는 분야입니다. 관련 분야의 Survey는 다음 논문을 참고하시기 바랍니다. 

 
각기 다른 대상에 대한 정보의 비교 : Mutual Information
 
위에서는 같은 대상에 대한 두 확률분포를 비교하는 기법을 알아보았는데, 서로 다른 대상에 대한 확률분포를 비교하는 기법이 Mutual Information입니다. Relative Entropy와는 달리 서로 다른 대상을 대상으로 하기에, Mutual Information은 두가지 확률분포의 '유사성'보다는 '독립성'을 측정하는 지표입니다.

 Mutual Information은 자연어처리에서 단어 의미 분간(disambiguation)등에 사용되기도 하지만, 여기서는 분류(classification)알고리즘의 속성 선택(feature selection)에 사용되는 경우를 알아봅시다. 속성 선택은 수많은 속성 중 가장 성능에 공헌도가 높은 속성만을 선별하는 기법으로, 기계학습 알고리즘의 성능을 높이는데 중요한 단계입니다. 

속성 선택에서 어떻게 Mutual Information을 활용할 수 있는지 알아봅시다. 분류 알고리즘을 만드는 데 가장 도움이 되는 속성은 분류 결과와 가장 유사한, 즉 dependency가 높은 속성일 겁니다. 예컨데 스팸 필터를 만드는 데 제목에 'XXX'라는 단어가 들어가는 문서가 100% 스팸이라면 굉장히 분류 작업에 유용하겠죠? 따라서, 문서 레이블의 분포 X와 속성값의 분포 Y간의 Mutual Information이 높을수록 해당 속성은 더 유용하다고 볼 수 있습니다. 


마치며

위에서 소개한 몇가지 지표는 사실 정보이론이라는 분야의 극히 일부분입니다. 검색 및 자연어처리에 자주 등장하는 기타 개념으로 Noisy Channel이 있는데, 흔히 음성언어 인식 및 기계번역이 Noisy Channel 문제로 간주되곤 합니다. 좀더 자세한 소개는 아래 적은 책들을 참고하시면 됩니다. 마지막으로 YouTube에도 엔트로피의 개념을 소개하는 비디오가 있어 소개합니다. 더 궁금하신 내용이 있으시면 답글로 남겨주세요.

참고자료
 
Foundations of Statistical NLP (book)
Information Theory, Inference, and Learning Algorithms : (book - free pdf available)