지난주에는 시애틀에서 열린 WSDM학회에 다녀왔습니다. WSDM은 올해로 5회째를 맞는 젊은 학회이지만, 비교적 적은 양의 논문을 Single Track 형식으로 발표하여, 참가자들간의 활발한 소통이 이루어지는 것이 특징인 학회입니다. 저에게는 작년 여름의 인턴 프로젝트 및 연구실에서 공저한 논문을 발표하고, 진로 모색을 위해 사람들을 만나는 자리였습니다. 학회 일정을 돌아보며 배운 점을 기록하고, 마지막에 주간 리뷰를 적어볼까 합니다 ;)

Doctoral Symposium 
Doctoral Symposium은 학위과정에 있는 대학원생들이 논문 주제에 대해 발표하고 학계 Senior들의 의견을 들을 수 있는 자리입니다. 논문을 마쳐가는 저같은 사람보다는 한창 진행중인 학생들을 위한 자리이지만, 오후에 열리는 Career Workshop에서 연구 및 진로에 대해 학계 및 산업계 종사자인 패널의 다양한 의견을 들을 수 있었습니다. 

우선 흥미있었던 주제는 Engineering, Applied Science, Basic Science의 경계에 관한 것이었습니다. 과학은 새로운 지식이나 원리를 발견하고, 공학은 이를 현실 문제에 적용한다는 것이 교과서적 대답입니다. 하지만 실제로는 원리 발견을 위한 노력이 문제 해결에 가장 큰 Impact를 가져오기도 하고, 현실적인 문제 해결이 새로운 발견의 지름길이 되기도 하니, 이들간의 뚜렸한 경계를 짓기란 쉬운 일이 아닙니다. 

물론 이 모든 것을 다할 수 있으면 좋겠지만, 모든 직업을 다 가질수는 없으니 어느 시점에서는 선택을 해야 합니다. 하지만, 성공한 과학 / 공학자인 패널중 상당수가 처음에 학자로서 경력을 시작하여 어느 시점에 업계에 투신하는 경험을 이야기했습니다. 학문의 존재이유가 궁극적으로 현실 세계에 긍정적인 영향을 끼치기 위함이라면, 현실 세계의 문제를 직접 해결하는 일에는 분명 보람이 있을 것입니다. 

 WSDM Conference
최근 IT 전반의 주요한 트렌드인 '소셜' 열풍은 WSDM 본 학회에서도 예외가 아니었습니다. 많은 논문들이 소셜 데이터를 가지고 다양한 분석 및 테스크를 수행했습니다. 트위터 데이터에서 사람이나 장소등의 엔티티를 추출하는 논문만 수편에 달했습니다. 또한 다양한 소셜 서비스가 생기다보니 여러 소셜 서비스의 데이터를 묶어서 분석한 논문이 많았는데, Groupon딜이 소매업체에 미치는 영향을 Yelp리뷰와 Facebook Like를 가지고 추측해보는 식입니다. 

Identifying Content for Planned Events Across Social Media Sites

Hila Becker, Dan Iter, Mor Naaman and Luis Gravano

 

Daily Deals: Prediction, Social Diffusion, and Reputational Ramifications

John Byers, Michael Mitzenmacher and Georgios Zervas


또한 WSDM의 전통적 주제인 클릭 모델에 대한 논문도 많이 눈에 띄었습니다. 기존의 클릭 모델에 각기 다양한 요소를 추가한 것을 볼 수 있습니다. 

Incorporating Revisiting Behaviors into Click Models

Danqing Xu, Yiqun Liu, Min Zhang, Shaoping Ma and Liyun Ru

 

A Noise-aware Click Model for Web Search

Weizhu Chen, Dong Wang, Yuchen Zhang, Zheng Chen, Adish Singla and Qiang Yang

 

Personalized Click Model through Collaborative Filtering

Si Shen, Botao Hu, Weizhu Chen and Qiang Yang

 


저의 주된 참가목적은 MSR에서 수행한 인턴 프로젝트 논문을 발표하는 것이었습니다. 또한 연구실에서 공저한 학생이 개인 소셜 데이터의 검색 기법에 대한 논문을 발표하였습니다. 논문 및 발표자료는 아래서 보실 수 있습니다. 

Characterizing Web Content, User Interests, and Search Behavior by Reading Level and Topic [paper] [slide]
Jin Young Kim, Kevyn Collins-Thompson, Paul N. Bennett, Susan T. Dumais. To Appear in Proceedings of WSDM'12, Seattle, WA, USA, 2012.

Evaluating Search in Personal Social Media Collections [paper] [slide]
Chia-Jung Lee, W. Bruce Croft and Jin Young Kim. To Appear in Proceedings of WSDM'12, Seattle, WA, USA, 2012. 

PIM Workshop
학회를 마치고는 저의 관심분야인 개인정보관리(PIM)를 주제로 하는 워크샵에 참석했습니다. 워크샵은 보통 학회보다 논문 개제가 쉬운 까닭에 실적으로의 가치는 높게 평가받지 못하지만, 한정된 주제에 관심있는 사람들이 모이는 까닭에 좋은 피드백을 받을 수 있습니다. 저는 이번에 '연구자들이 개인정보관리 프로그램을 계속 개발하게 아니라, 있는 프로그램을 더 잘 활용할 수 있게 도와주어야 한다'는 주제로 발표를 했습니다. 

주간 반성 및 계획
마지막으로 조금 늦었지만 주간 리뷰를 올립니다. 이번주에는 놀랍게도 5점 (기억에 남을만큼 잘 보낸 시간)이 두번이나 됩니다. 학회 도착하여 발표때까지 적당한 긴장속에 매우 생산적인 시간을 보냈던 것입니다. 발표를 마친 다음날, 그리고 마지막 날 피로에 컨디션이 조금 떨어지기는 했지만, 전체적으로는 잘 보낸 한주였습니다. 




마치며
이제 10번째 참석하는 학회여서 이제 새로움보다는 익숙한 환경과 사람들을 만나는 편안함을 느꼈습니다. 하지만, 매 학회마다 발표되는 신선한 연구들과 다양한 사람들과의 교류는 학자로서의 길을 보람되게 합니다. 취업 직전이라 어찌보면 Networking(?)에 신경써야 되는 상황이었지만, 그런 생각 없이 즐겁게 시간을 보낸 것이 더 좋은 결과를 낳지 않았나 합니다.

연구실에서 대부분 참가비를 지원해주는 까닭에 그동안 기회가 없었는데, 이번 학회에서는 Student Volunteer를 했습니다. 등록비 등을 면제해주는것 이외에도, 같이 Volunteer를 하는 학생들과 친해지고, 또한 세션 Chair 및 스피커들과 좀더 가까히할 수 있는 좋은 기회가 되었던 것 같습니다. 이름 그대로 학생때만 할 수 있는 일이니 가급적 꼭 지원하시기를 바랍니다. 같은 의미에서 Doctoral Consortium같은 이벤트 역시 큰 도움이 됩니다. 
작년에 시애틀에서 뵈었던 HKUST의 김성훈 교수님께서 쓰신 학회에 *잘* 참여하기라는 글을 재미있게 읽었습니다. 저널을 중시하는 다른 분야와 달리 Computer Science 분야에서는 최신 연구 성과가 학회를 통해 확산되는 경우가 많은 것 같습니다. 따라서, 학회에 참여하여 사람들과 소통하고 정보를 얻는 것이 연구자로서 중요한 일입니다. 

내일 ECIR'11 학회 참석을 위해 아일랜드 더블린(Dublin)으로 출국합니다. 프랑스 툴루즈에서 열렸던 ECIR'09가 생애 첫 학회참석이었으니, 제게는 고향같은 학회입니다. 이번이 6번째 학회 참석이니 초보티는 많이 벗었지만, 아직도 학회 참석은 여러가지 준비를 필요로 합니다. 김성훈 교수님꼐서 전해주신 교훈을 떠올리며, ECIR'11학회 소개를 겸한 저의 준비 과정을 적어볼까 합니다. 

논문 발표 / 워크샵 준비

가장 먼저 준비할 것은 제 연구에 대한 발표입니다. 이번 논문의 제목은 An Analysis of Time-instability in Web Search Results으로, 작년 Bing에서 했던 연구의 일부입니다. 어제 연구실 사람들과 Practice Talk을 했고, 발표 전날 더 연습을 할 생각입니다.  출발 전에 하는 연습은 주로 슬라이드에 대한 피드백을 얻는데, 전날 하는 연습은 발표에 대한 피드백을 얻는데 유용합니다. 발표자료는 몇 부 더 출력하여 학회 중간중간 사람들을 만났을 때 사용할 수 있도록 준비합니다.

본 학회가 모든 주제를 망라하는 큰 소통의 장이라면, 워크샵은 특정 세부분야의 연구자들이 논문 발표 및 좀더 심도있는 논의를 하는 작은 학회라고 할 수 있습니다. 사실, 저의 경우 논문 주제도 참가자들의 배경도 너무 광범위한 본 학회보다는 자신의 관심분야를 워크샵에서 더 많이 배운다는 느낌입니다.

특히, 이번 학회에서는 저와 동료 연구자 몇명이 개인정보 검색의 평가에 대한 웍샵(Evaluating Personal Search Workshop)을 진행하게 되었습니다. 개인정보의 검색은 데이터의 Privacy문제로 평가가 쉽지 않은데, 이에 대한 평가모델을 논의하는 것이 이번 웍샵의 주제입니다. 성공적인 웍샵을 위해 다른 Chair들과 발표자료 및 세부 일정을 협의하고, 학회 참가자들을 대상으로 웍샵을 흥보하는 것이 필요합니다. 

학회에는 또한 특정 주제에 대해 전문가의 강의를 듣는 튜토리얼이 있습니다.  이번 학회에서는 워크샵과 같은날 Tutorial을 진행하기 때문에 직접 참석은 힘들지만, 튜토리얼을 진행하는 분들께 연락하여 강의자료를 얻고, 학회 중간중간 궁금한 점을 질의할 생각입니다. 본 학회의 튜토리얼은 다음과 같습니다.



 관심 논문 뽑기

학회 참석의 주요 행사는 역시 페이퍼 / 포스터 발표 세션입니다. 하지만, 발표되는 논문 모두를 현장에서 소화한다는 것은 불가능에 가깝습니다.  학회를 마치고 나서 저녁 시간이 있지 않냐고요? 학회 중에는 자신의 발표 준비 및 연회 참석 등으로 바빠서 잠도 설치는 것이 보통입니다. 

따라서 미리 관심 논문을 추려서 찾고, 가능한 미리 훑어봅니다. 많은 저자들이 자신의 논문을 개인 홈페이지에 올려놓기 때문에 웹 검색을 통해 많은 논문을 찾을 수 있고, 그중 특히 관심이 가는 논문은 저자에게 메일을 통해 논문을 요청하기도 합니다. (이를 통해 사전에 저자와 인사하게 되는 효과도 있습니다!) ECIR'11에서 제 연구분야에 해당하는 관심 논문은 다음과 같습니다.

What Makes Re-finding Information Difficult? A Study of Email Re-finding

David Craig Elsweiler1, Mark Baillie2, Ian Ruthven2

1University of Erlangen, Germany; 2University of Strathclyde, United Kingdom


A Methodology for Evaluating Aggregated Search Results

Jaime Arguello1, Fernando Diaz2, Jamie Callan1, Ben Carterette3

1Carnegie Mellon University; 2Yahoo! Research; 3University of Delaware


Learning Models for Ranking Aggregates

Craig Macdonald, Iadh Ounis

University of Glasgow, United Kingdom



주 연구분야가 아니라도 관심이 가는 논문을 추려봅니다. 이렇게 하면 어느 세션에 참석할지 (보통 학회는 여러 세션이 동시에 진행됩니다.) 미리 결정할 수 있습니다. 이번 학회에는 Evaluation측면에서 흥미있는 논문이 많이 보입니다.  검색 평가의 Hot 트렌드 중 하나인 Crowdsourcing (Amazon Mechanical Turk) 관련 논문도 두편이나 있습니다. 


On the contributions of topics to system evaluation

Stephen E Robertson

Microsoft Research Cambridge, United Kingdom


In Search of Quality in Crowdsourcing for Search Engine Evaluation

Gabriella Kazai

Microsoft Research, United Kingdom


Design and Implementation of Relevance Assessments using Crowdsourcing

Omar Alonso1, Ricardo Baeza-Yates2

1Microsoft, United States of America; 2Yahoo


Exploiting Thread Structures to Improve Smoothing of Language Models for Forum Post Retrieval

Huizhong Duan, Chengxiang Zhai

UIUC, United States of America


AutoEval: An Evaluation Methodology for Evaluating Query Suggestions Using Query Logs

M-Dyaa Albakour1, Nikolaos Nanas2, Udo Kruschwitz1, Maria Fasli1, Yunhyong Kim3, Dawei Song3, Anne DeRoeck4

1University of Essex, United Kingdom; 2Centre for Research and Technology, Greece;3Robert Gordon University, United Kingdom; 4Open University



개인적으로 아는 저자의 논문 역시 미리 읽어두면 좋겠죠? 다음은 한국 저자들의 논문입니다. 


Text Classification for a Large-Scale Taxonomy using Dynamically Mixed Local and Global Models for a Node

Heung-Seon Oh, Yoonjung Choi, Sung-Hyon Myaeng

KAIST, Korea, South (Republic of)


Smoothing Click Counts for Aggregated Vertical Search

Jangwon Seo1, W. Bruce Croft1, Kwang Hyun Kim2, Joon Ho Lee2

1University of Massachusetts Amherst, United States of America; 2NHN Corp., South Korea



사람들과 연락 / 일정잡기
 

 관심 논문을 고르다 보면 누구와 만날 것인지도 어느 정도 윤곽이 잡힙니다. 유명한 학자일수록 꼭 이야기하고 싶다면 미리 연락을 취하는 것이 필요합니다. 학회는 또한 구인/구직의 장이기도 합니다. 예컨데 회사에서의 여름 인턴을 생각하고 있다면 해당 회사에서 나오는 논문을 주의깊게 볼 필요가 있을 겁니다.  이렇게 관심 논문을 결정하고 사람들과 약속이 잡다보면 '이번 학회에서 무엇을 배울 수 있겠구나...'
하는 윤곽이 잡힙니다.

저의 경우, 역시 워크샵을 함께 진행할 David Eilsweiler, Leif Azzopardi등 Interactive IR 및 개인정보의 검색을 주로 연구하는 분들과 많은 시간을 보낼 것 같습니다. 또한, 올 여름에 MSR에서 같이 일하게 될 Kevyn Collins-Thompson이 튜토리얼 진행을 위해 학회에 참석하기 때문에, 종종 만나 인턴 프로젝트에 대해 의논할 생각입니다. 또한 유럽에서 Interactive IR 연구로 유명한 Tony Russell-Rose라는 분도 만나뵐 계획입니다. 

기타 준비

이외에도 아무래도 장거리 여행인만큼 기타 잡다한 준비가 많습니다. 현재 규격에 맞는 전기 어댑터, 무선랜이 제공되지 않을 경우 유용한 랜케이블등이 떠오릅니다. 또한 비행기 check-in 및, 현지 화폐로의 환전 역시 필요한 준비 중 하나입니다.  현지 날씨 및 교통, 문화적 차이에 대해서는 보통 컨퍼런스에서 제공하는 가이드북을 참고하는 것이 좋습니다. 지난번 CIKM'10에서 유용하게 사용한 iPad에도 읽을거리를챙겨 넣습니다. 

또한 직접 출력한 것이라도 좋으니 명함(Business Card)을 준비하라고 말씀드리고 싶습니다. 아무리 트위터와 페이스북의 시대라고는 하지만, 바쁜 하루를 마치고 숙소에 왔을 떄 들어있는 명함 때문에 다시 연락했던 분들이 많거든요. 

마치며

학회 참석은 역시 즐거워야 하는데 학회 준비가 연구에 너무 치중했나요? 제 경험으로는 (역설적으로) 이런 준비가 충실할수록 본 학회에서는 다른 생각 없이 순간순간을 즐길 수 있게 되는 것 같습니다.  물론 맥주의 나라 아일랜드이니만큼 좋은 Pub도 몇개 알아두었습니다 ;)

첫 학회 참석을 앞두고서는 기대만큼이나 긴장감이 컸었던것 같은데, 이번에는 예전과는 달리 익숙한 사람들과 다시 만난다는 편안한 마음입니다. 학회 중에도 시간이 허락하는 대로 블로깅을 해볼 생각이니 기대해 주세요!

작년부터 검색 서비스 업계의 화두는 '실시간 검색'이었다고 해도 과언이 아닙니다. 검색엔진 빅3(구글, 야후, 빙)에 이어 국내 포탈에서도 실시간 검색 서비스를 제공하고 있습니다. 최근 구글의 카페인 인덱싱 발표를 계기로, 더 신속한(fresh) 결과를 제공하기 위한 경쟁이 더욱 치열해질 것으로 보입니다. 구글의 발표 및 그리고 실제 사용자들의 테스트 결과에 따르면 블로그 및 뉴스 페이지가 업데이트된 후 검색에 표시되기까지 1분도 걸리지 않는다고 합니다.

실시간 검색이야 이미 다 되는 기술인데 뭐가 대수냐고 하실지 모르겠습니다. 하지만, 지난번 네이버의 개편 관련 포스팅에서도 언급했한대로 실시간 검색에 대한 빅3와 국내 포탈의 접근방법은 완전히 다릅니다. 오늘은 실시간 검색과 관련된 연구 결과를 요약해 보겠습니다.

야후! 리서치에서 발표한 최근 연구 논문에 따르면 실시간 검색의 주된 이슈는 1) 질의의 실시간성을 가리는 것 2) 실시간성 질의에 대한 더 나은 결과를 제공하는 것으로 나눌 수 있습니다. 예컨데, 마이클 잭슨의 사망소식이 전해졌을 때 질의어 'michael jackson'에 대해 최신의 권위있는 뉴스 결과를 제공한다면 성공입니다. 

이들은 실시간성 질의의 경우, 갑자기 질의량이 폭증한다던가 최신 뉴스 기사에 등장하는 단어가 사용된다는 등의 특성(feature)을 이용하여 최대 90%의 확률로 실시간 질의를 가려냅니다. 이런 식으로 분류된 실시간성 질의에 대해서는 문서의 시간, 종류, 속보성(hotness)등을 랭킹에 적극 반영합니다. 하지만 실시간 질의의 경우에도 기존에 사용하던 기법이 유효하기에, 기존 검색 모델의 성능을 살리는 동시에 실시간성을 고려하기 위해 이들은 세가지 기계학습 기반의 검색 모델을 제시합니다. 마지막으로, 일반 질의와 실시간 질의 처리에 모두 사용가능한 학습 데이터를 만들기 위해서 이들은 문서의 품질 평가에 일반적인 기준을 번저 적용하고, 나중에 실시간성을 반영하는 방식을 사용합니다.

이처럼 실시간성 질의와 일반 질의를 분리하여 처리하기에, 각각의 유형에 따른 적절한 결과를 보여줄 수 있습니다. 이들의 최신 논문에서는 트위터 등의 SNS를 활용하여 실시간성 질의의 검색 결과를 더욱 향상시키는 결과를 볼 수 있습니다. 이외에, 실시간성 질의가 아닌 경우에도 문서의 업데이트 주기 등을 랭킹에 반영하는 방법이 제안되기도 했습니다. 이번 구글의 발표내용을 살펴보아도, 모든 웹페이지의 변화 내용을 감시할 수는 없기에 페이지의 중요도 및 업데이트 주기를 고려하여 인덱싱의 우선순위를 결정하는 등 실시간 검색 구현을 위한 고려사항이 복잡다단하다는 것을 알 수 있습니다.

이처럼 실시간 질의를 제대로 구현하는 데에는 인덱싱에서 검색 모델과 특성(feature), 그리고 평가에 이르기까지 많은 고려가 필요합니다. 하지만, 국내 포탈에서는 아직 제한된 검색어에 대해 편집된 결과를 제공하는 것으로 보입니다. 하지만 이런 방식으로는 뉴스 속보 등에 관련된 질의에는 대응할 수 있을지 몰라도, 검색어의 대부분을 차지하는 테일(tail - 적은 빈도의) 질의에는 제대로 대응할 수가 없습니다. 검색 엔진의 경쟁력이 사실상 테일에서 결정된다는 점, 그리고 앞으로 검색엔진에 대한 의존도가 증가하면서 질의의 범주도 다양화될 것이라는 점을 감안하면, 이는 올바른 방향이 아니라는 생각입니다. 
목차 : 
질의어 분석 - 하나를 보고 열을 찾아라
랭킹 함수 (retrieval model) - 검색 엔진의 심장부
검색 결과 평가하기 - 평가 없이는 향상도 없다
검색 기술의 미래 - 
  
검색 연구자들은 어떤 생각을 하고 있을까 

이번 글의 주제는 질의어 분석입니다.
검색을 '문제 해결'에 비유한다면 질의어 분석은 문제를 정확히 파악하는 것인데, 문제 파악이 제대로 되어야 올바른 답안(문서)를 고를 수 있다는 것은 자명합니다. 특히 
사용자의 질의어는 대부분 불충분하며 (평균 2~3단어) 오류를 포함하는 경우도 많기에 효과적인 질의어 분석은 검색 품질에 결정적인 영향을 끼칩니다. 

구글이나 야후, 빙과 같은 검색 엔진들도 이를 잘 알기에 사용자의 질의어를 고쳐주거나(spell correction), 더 나은 대안을 제시하거나(query suggestion) 합니다. 이를 구현하기 위해 과거에 대부분 규칙 기반(rule-based)의 처리에 의존했던 것이, 막대한 양의 사용자 데이터(query log)를 활용한 통계적인 기법으로 대체되고 있습니다. 예컨데 과거에 고정된 규칙이나 단어 목록을 사용하던 어근 분석(stemming)이나 불용어 제거(stopword removal)에도 데이터에 기반하여 검색 성능을 최적화하는 연구가 진행되고 있습니다. 

질의어 분석이라는 주제는 
저희 연구실에서 한학기동안 세미나를 했을 정도로 방대하기에, 이번 글에서는 검색엔진이 사용자의 질의를 받아 처리하는 과정을 단계별로 소개하고, 그 과정에서 질의어 분석의 주요 이슈를 소개하고자 합니다. 아래의 네 단계는 세미나 내용을 바탕으로 제가 구성한 것입을 밝힙니다. 

(1) 분석을 위한 추가적인 단서 찾기 (augmentation)

질의어 분석을 위해 가장 먼저 해야하는 일은 분
석을 위한 추가적인 단서를 찾는 것입니다. 사용자가 입력하는 질의는 보통 짧지만 사용자의 프로필이나 현재 위치, 혹은 과거의 질의 목록을 안다면 분석에 도움을 받을 수 있는 경우가 많습니다. 흔히 말하는 검색 결과의 개인화는 이 단계에서 이루어지는 경우가 많습니다. 

(2) 유형별로 분류하기 (classification)

단계 (1)을 거쳐 확장된 질의는 추가적인 처리를 거치기 전에 유형별로 분류되는 것이 보통입니다. 분류의 기준은 매우 다양하겠지만, 보통 정보를 찾는지 (informational) 웹사이트를 찾는지(navigational), 뉴스 / 지역 / 쇼핑 등 특정 분야의 컨텐츠를 원하는지(vertical intent) 등을 판별해 내는 것이 목적입니다. 질의어에 대한 세세한 처리를 거치기 전에 질의어의 유형을 파악함으로써 유형에 따른 적절한 처리가 가능해집니다.

(3) 질의 해석하기 (interpretation)

그 다음 순서는 질의를 세부적으로 해석하는 일입니다. 질의에서 고유명사를 찾아내거나 
(named entity recognition)
, 잘게 나누거나(segmentation), 오류를 수정하는 일(spell correction)이 모두 이 단계에서 이루어집니다. 앞서 언급한 
어근 분석(stemming)이나 불용어 제거(stopword removal) 역시 이에 해당합니다. 
단계 (1)과 (2)에서 파악된 추가적인 단서와 유형은 이 단계에서 정확한 해석을 하는데 큰 도움이 됩니다. 예컨데 쇼핑에 대한 질의로 판명된 경우, 알려진 제품명과 대조하는 방법으로 고유명사를 찾아낼 수 있을 것입니다. 

(4) 질의 다듬기 (refinement)

앞선 단계에서 질의 자체의 의도에 대한 분석에 초점을 맞추었다면, 마지막 단계에서는 분석 결과를 바탕으로 질의를 다듬고 개선합니다. 추가적인 질의어를 더하거나 (expansion) 쓸데없는 질의어를 빼기도 하고 (reduction),  질의어에 중요도에 따라 가중치를 두기도 합니다 (weighting). 당연한 말이지만 적절한 변형을 위해서는 질의 자체에 대한 정확한 분석이 선행되어야 합니다. 이처럼 변형된 질의는 사용자의 원래 질의를 대체하는 것이 보통이지만, 경우에 따라서는 사용자에게 제안되기도(suggestion) 합니다. 

마치며
이번 글에서는 검색 엔진의 질의어 분석 과정을 처리 순서에 따라 알아 보았습니다. 사용자가 입력하는 몇 안되는 단어를 가지고 사용자의 의도를 파악하고 이를 더욱 효과적인 질의로 변형하는 과정은 이처럼 복잡 다단합니다. 또한 위에서 설명한 단계들간에 밀접한 연관성이 있기 때문에, 이 모두를 아우르는 통합적인 모델의 개발이 최근의 연구 초점이라는 점도 주목할만 합니다. 좀더 궁금하신 내용을 답글로 알려주시면 감사하겠습니다.

참고자료
Query Evolution by W. Bruce Croft : 질의어 분석에 대한 저희 지도교수님의 발표자료입니다.

윤석찬님 블로그에 소개된 소셜 검색엔진 Aardvark(아드박이라고 읽는군요;)에 관한 논문을 읽어 보았습니다. 아드박은 사용자의 질문에 대한 대답을 주는 문서를 찾는 대신에 가장 적절한 답변자를 찾아준다는 아이디어를 기반으로 합니다. 수십년간 지속되었으나 아직도 상용화되지 못한 자동 QA시스템 연구에 멋진 카운터를 먹인 셈이라고나 할까요. 

'Anatomy of a Large-Scale Social Search Engine'이라는 제목의 논문 역시 이론과 응용이 조화를 이룬 수작입니다. '문서'를 찾는 검색 모델을 '사람'을 찾는 용도로 변형시켰다는 측면에서 학문적으로 새로운 내용은 아니지만, 검색 모델의 구성요소를 요목조목 잘 설명하고 있습니다. 산업체 출신의 저자가 쓴 이유에선지 기술적인 내용을 쉽게 소개하고 있어, 검색 공부를 하시는 분들께 일독을 권합니다.

개괄적인 내용은 앞서 소개한 포스팅에 잘 소개되어 있으니, 여기서는 아드박의 검색 모델을 분석해볼까 합니다. 

검색 모델 분석
아드박의 검색 모델은 질문자(u_j)와 질문(q)에 대하여 잠재적인 답변자(u_i)를 랭킹하는 다음 수식으로 요약됩니다.


언뜻 복잡해보이는 이 수식은 사실 간단한 메시지를 담고 있습니다. 1) 질문자와 가장 가깝고 p(u_i | u_j) 2) 해당 질문을 가장 잘 아는 p(u_i | q) 답변자를 선택하라는 것입니다. 또한 질문에 대한 잠재 답변자의 지식을 평가하기 위해서 사용자가 어떤 주제(t)에 정통한지 p(u_i | t)와 질문이 어떤 주제에 해당하는지 p(t | q)를 고려하고 있습니다. 

이번에는 문서를 찾는 전통적인 검색 모델의 관점에서 위 검색 모델을 생각해 봅시다. 전통적 검색 모델에서는 문서의 품질 및 질의와의 관련성을 평가합니다. 또한 문서와 질의의 관련성을 평가하기 위해 질의를 다양한 토픽에 매핑시키는 기법이 사용됩니다. [1] 요약하면, 아드박의 검색 모델은 기존 검색 모델의 뼈대를 유지한 채 사용자 검색이라는 컨텍스트에 맞게 변형시킨 결과입니다. 

1) 사용자간의 친화성
사용자간의 친화성은 프로필 / 소셜 그래프 / 행동 패턴 등 다양한 기준(feature)에서 평가될 수 있으며, 실제 평가는 이 모든 요소를 적절한 Weight로 결합하여 이루어집니다. 재미있는 것은 행동 패턴 부분인데, 사용자가 얼마나 수다스러운지, 공손한지, 신속하게 응답하는지까지 고려합니다. 이는 단순히 유사한 관심사를 갖는 사용자를 매칭시키는 기존의 소셜 네트워크 검색 기법을 뛰어넘는 것이라고 볼 수 있습니다.

2) 답변자와 질문의 관련성
질문과 답변자의 관련성을 평가하기 위해서는 답변자의 프로필과 질문이 각각 어느 주제에 매칭되는지를 알아야 합니다. 우선 답변자의 프로필은 사용자의 정보 및 홈페이지 등을 통해 만들어지는데, 이 과정에서 해당 사용자의 소셜 네트워크가 해당 사용자의 프로필에 반영되는 점이 이채롭습니다. 즉, 내 친구들이 컴퓨터 전문가라면 나 역시 컴퓨터에 정통할 확률이 높아진다는 점을 고려하는 것입니다. 질문을 주제에 매칭하는 과정은 1)에서와 유사하게 Linear Combination을 활용하고 있습니다.

마치며
Aardbark은 인간과 기계를 한 시스템에서 조화시킨(Humans-in-the-loop) 좋은 사례입니다. 이처럼 사용자의 적극적인 참여를 유도하고, 이를 알고리즘과 결합하여 다시 사용자에게 고품질의 결과를 제공하는 어프로치는 최근 '핫'한 토픽인 것 같습니다. 아울러 전통적인 검색 모델이 이처럼 새로운 문제에 활용될 수 있다는 점이 주목할만합니다.  문서 대신에 '사람'을 검색한다는 아이디어 역시 이미 Expert Search라는 연구 분야에서 다루어진 바가 있지만, QA 서비스라는 문제에 적용시킨 점이 참신합니다. 구인/구직, Matchmaking(e.g. 듀오) 등에 폭넓게 활용될 수 있지 않을까 합니다. 

[1] 관련성 부분은 Relevance-based Language Model 이라는 논문에서 소개된 것과 거의 같습니다. 

최근에 서머 인턴직을 구하고 있습니다. 가뜩이나 불경기에 MS와 야후의 웹 검색 통합 건으로 말미암아 검색 연구자로서 구직에 좋은 시기는 아닙니다. 어쨌든 몇 번의 전화 인터뷰를 보면서 느끼는 점이 많습니다. 연구자로서 발전하고 논문을 쓰는 것도 중요하지만, 언젠가는 구인 시장(Job Market)에 나가는 '상품'으로서 최대한 가치를 높여야 한다는 생각이 들었습니다. 전문가로서 스스로의 시장 가치를 높여야 좋은 환경에서 연구를 계속할 수 있을 것이기 때문입니다.

그 와중에 생각하게 된 것이 검색(Information Retrieval) 연구자로서의 경쟁력이었습니다. 구직시장에서 검색 연구를 했다는 것이 어떤 평가를 받는지, 검색 연구자로서 최고의 경쟁력을 갖추기 위해 어떤 노력을 해야 할까 생각해 보았습니다. 나중에 어떤 연구를 하던간에 제가 학문적 기초를 닦은 분야는 검색 연구이기 때문입니다. 대학 때 복수전공했던 경영학이 남겨준 문제의식인지도 모르겠습니다. 

사실 검색 연구의 주된 내용은 (주로 질의로 표현되는) 사용자의 정보욕구에 맞는 문서(혹은 다른 대상)를 찾는 모델을 만들고 평가하는 것인데, '사용자'에 초점을 맞추고 있으면서도 실제 대부분의 시간을 통계나 기계학습 기법을 학습하고 구현하는데 보내는게 보통입니다. 이처럼 학제적인 성격이 강한 까닭에, 검색학을 전통적인 학문의 분류에 넣기는 쉽지 않습니다.

이런 어중간한 포지션을 가진 경우 위험성은 어느 한 분야에서도 전문가 대접을 받기가 어렵다는 점입니다. 인간에 대한 깊이있는 이해가 필요한 사용자 연구나, 탄탄한 수학적 기초를 요구하는 기계학습이나 한 우물만 파도 깊이를 얻기 힘든 분야이기 때문입니다. 그리고 회사나 학교에서나 전문성이 뚜렸한 인재를 원하는 것이 현실입니다.

하지만, 두가지를 겸비했다는 것이 장점이 될 때도 있습니다. 전체를 아우르는 폭넓은 시야나, 한쪽 분야의 전문성을 다른 분야에 적용하는 데서 나오는 문제해결력 등은 두가지 이상의 전문성을 갖출 때 나옵니다. 대부분의 검색 연구가 사용자의 행동을 모델링하고 이를 검색 모델에 반영한 결과물이라는 점은, 검색 연구자가 갖는 유니크한 포지션이 갖는 장점을 대변합니다. 사용자 연구 전문가라면 문제의식을, 기계학습 전문가라면 해결책을 갖추었겠지만, 검색 연구자는 두가지를 모두 갖추어야 하기 때문입니다.

또한, PageRank로 대표되는 다양한 속성(feature)들, Language Modeling을 포함한 다양한 검색 모델들, TREC으로 대표되는 다양한 평가 데이터와 기법은 검색 연구가 쌓아올린 고유 영역입니다. 계속 쏟아져나오는 새로운 서비스와 사용자 환경이 새로운 검색 및 평가 기법을 필요로한다는 것을 고려하면, 앞으로도 검색이라는 연구분야의 장래는 밝다고 생각합니다.

연구를 하는 분이라면, 아니 어떤 식으로든 지적 자산을 쌓아가는 지식 근로자라면 한번쯤 생각해 볼만한 일입니다. 자신이 하는 일이 드넓은 학문 (혹은 산업) 세계에서 갖는 위치를 정확히 아는 것은 앞으로의 진로에 대한 좀더 현명한 판단을 가능하게 합니다. 최근 후배의 블로그에서 읽은 HCI(Human-computer Interaction) 연구자의 포지셔닝이라는 글을 소개하는 것으로 마칠까 합니다. 

CIKM의 한국인 저자 논문들

검색연구동향 : 2009.09.12 13:32   By LiFiDeA
이번 CIKM Conference의 한국인 저자 논문을 모아 보았습니다. SIGIR에서보다 더 많은 논문이 눈에 띄는군요.  저희 연구실의 서장원 선배, 그리고 SIGIR에서 뵈었던 나승훈님 이외에는 처음 뵙는 분들이라 기대가 큽니다. 영문 블로그의 CIKM의 제 논문 관련 포스팅, 그리고 저자 및 타이틀 통계도 참조하세요.

Full Paper
Generating Comparative Summaries of Contradictory Opinions in Text
Hyun Duk Kim (University of Illinois at Urbana-Champaign), ChengXiang Zhai (University of Illinois at Urbana-Champaign)

Towards Real-Time Measurement of Customer Satisfaction Using Automatically Generated Call Transcripts
Youngja Park (IBM T. J. Watson Research Center), Stephen C. Gates (IBM T. J. Watson Research Center)

Improving Web Page Classification by Label-propagation over Click Graphs
Soo-Min Kim (Yahoo! Labs), Patrick Pantel (Yahoo! Labs), Lei Duan (Yahoo! Labs), Scott Gaffney (Yahoo! Labs)

Short Paper
Online Community Search Using Thread Structure
Jangwon Seo (University of Massachusetts Amherst), W Bruce Croft (University of Massachusetts Amherst), David A Smith (University of Massachusetts Amherst)

An Improved Feedback Approach Using Relevant Local Posts for Blog Feed Retrieval
Yeha Lee (Pohang University of Science and Technology (POSTECH)), Seung-Hoon Na (National University of Singapore), Jong-Hyeok Lee (Pohang University of Science and Technology (POSTECH))

Extraction of a Latent Blog Community Based on Subject
Seok-Ho Yoon (Hanyang University), Jung-Hwan Shin (Hanyang University), Sunju Park (Yonsei University), Sang-Wook Kim (Hanyang University)

데스크톱 검색을 주제로 쓴 두번째 논문 ‘Retrieval Experiments in Pseudo-desktop Collections’CIKM2009 실리게 되었다는 소식입니다. 데스크톱 검색, 더 넓게 말하자면 개인 정보의 검색은 은 제 연구 관심사인 개인정보관리와 검색 연구의 접점으로써 앞으로 주력하고 싶은 분야입니다.

이번 논문의 주제는 크게 두가지입니다. 우선, 데스크톱 검색 연구를 위한 데이터가 프라이버시 문제로 공개되지 못하는 문제점을 해결하기 위해, 검색 실험을 위한 테스트 데이터(문서+질의)를 자동으로 만드는 기법을 제시하였습니다.

좀더 구체적으로 데스크톱과 유사한 성격의 문서를 모으고 질의-문서의 쌍을 자동으로 생성합니다. 질의-문서의 쌍을 생성하는방법이 재미있는데, 데스크톱에서 사용자들이 주로 자신이 이미 본 문서(known-item)를 찾는 점에 착안하여 임의의 문서에서추출한 단어를 질의어로 사용하는 것입니다.

예를 들자면 Tom이라는 가상의 유저가 HTML 표준과 Web Accessibility의 전문가라고 가정하고 그 토픽에 해당하는 문서(e-mail, pdf, doc등등)를 모읍니다. 그 중 Mary가 보낸 ‘HTML Standard Draft’라는 제목의 메일을 Tom이 찾는다고 가정해 봅시다. 그러면 ‘Mary HTML Draft’와 같이 문서에서 추출한 단어를 질의어로 사용할 수 있을 것입니다. 이런 방식으로 프라이버시 문제가 없는 데스크톱 검색용 컬렉션(test collection)을 만드는 것입니다.

본 논문에서는 컬렉션 생성 방법과 더불어 만들어진 컬렉션을 실제 사용자의 질의와 비교하여 이 둘이 통계적으로유사(indistinguishable)하다는 것을 증명하고 있습니다. 물론 이렇게 만들어진 컬렉션이 실제 사용자가 사용하는데스크톱의 검색 환경과 동일하지는 않을 것입니다. 하지만 연구자들간에 공유가 가능하며(reusable) 다양한 특성을 갖는테스트 컬렉션을 자동으로 생성할 수 있다는 장정이 이러한 한계를 상쇄할 것입니다.

향후 과제로서 이렇게 자동 생성된 컬렉션에서의 실험 결과와 실제 데스크톱에서의 실험 결과를 비교해보는 일을 들 수있습니다. 또한 요즘 개인 정보가 데스크톱보다는 각종 웹 서비스에 흩어져 있는 경우가 많기에 이를 모두 아우르는 검색 기술을개발하는 것도 재미있을 것 같군요.

컨퍼런스는 홍콩에서 11/2~11/6일에 있으며, 돌아가는 길에 한국에 들를 생각입니다. 전화와 블로그로만 뵙던 그리운 분들을 직접 뵙는다고 생각하니 설레는군요.

참조 : 영문 포스팅

이번 달에 첫 논문 A Probabilistic Retrieval Model for Semistructured Data 을 발표하러 프랑스 툴루즈에서 열리는 ECIR (유럽 정보검색 학회)에 다녀왔습니다. ‘첫’ 기억은 항상 소중하지만, 연구자에게 첫 논문이 주는 감회는 남다른 것 같습니다.

이번 작업은 굉장히 단순한 관찰에서 시작되었습니다. ‘감독’, ‘배우’, ‘제목’ 등의 정보가 항목(element or field)별로 기록된 문서(XML or Database record)를 생각해봅시다. 저의 착안점은 이런 종류의 구조화된 데이터베이스를 검색하는 사용자의 질의어는 문서의 각 항목에 매핑(mapping)될 수 있다는 것입니다. 예를 들어 ‘meg ryan romance’라는 질의어에 대해서 문서를 평가할 때 ’meg’과 ’ryan’은 배우의 이름이고, ’romance’는 장르일 것이라는 것을 어렵지않게 알 수 있습니다.

더 중요한 것은 이러한 매핑을 간단한 (그리고 효율적인) 분류(bayesian classification) 알고리즘을 통해 찾을 수 있으며, 이 관계를 바로 검색 결과를 향상시킬 수 있다는 사실입니다. 앞의 예제를 계속 살펴보면 질의어 ’meg’과 ’ryan’에 대해서는 ‘배우’ 항목에 더 큰 가중치를 부여하고, ’romance’에 대해서는는 ’장르’에 더 큰 가중치를 부여하는 것입니다. 또한 이렇게 계산된 가중치는 기존 language modeling 검색 모델에 자연스럽게 통합됩니다.

이렇게 각 질의어에 대해 적절한 문서의 항목을 찾고 이를 검색 모델의 항목별 가중치로 활용하는 기법은 문서를 통째로(bag-of-words) 처리하거나 각 항목에 대해 고정된 가중치를 부어햐는 기법에 비해 훨씬 나은 성능(20~30% 향상)을 보입니다. 예컨대 영화 문서를 찾는 데에는 “’제목’이 ’줄거리’보다 2배 더 중요하다”고 일괄적으로 단정짓기보다는 각 질의어(query-term)에 대해 적절한 항목을 찾아주는 것이 효과적이라는 거죠.

논문에서는 영화(IMDB)와 이력서(Monster.com) 데이터베이스를 사용한 실험을 소개했지만, 대부분의 웹 서비스가 이렇게 구조화된 형태로 데이터를 보관하며 웹 문서를 구조화하려는 XML, Semantic Web등의 움직임을 미루어볼때 이러한 알고리즘의 쓰임새는 점점 넓어질 것입니다.

이번 연구를 통해 느낀 것은 꼭 복잡한 기법이 더 가치있는 것은 아니며, 나은 성능을 가져다주는 것도 아니라는 점입니다. 오히려 직관적이며 어쩌면 너무나 당연해 보이는 모델이 놀랄만큼 좋은 결과를 나타낼 수 있다는 생각을 했습니다. 인간의 편단 과정을 흉내내려는 검색 연구에 있어서 어쩌면 너무나 당연한 일일까요?

P.S. 더 자세한 정보는 영문 포스팅발표 슬라이드 를 참조하시면 됩니다.

자연어 처리(NLP)를 중심으로 관련 분야를 폭넓고 싶게 다루었던 ‘Foundation of Statistical Natual Lanugage Processing(일명 주사위책)’을 기억하시는 분이 많으실 겁니다. 그 필진에 야후 리서치 책임자이신 분이 가세하여 집필한 IR책이 나와서 오늘 받아서 몇 챕터를 읽어보았습니다. 이미 국내 블로그에 소개된 바 대로, 웹에 초판이 꾸준히 공개되면서 널리 알려진 책입니다.

사실 처음 시작하는 입장이 아니라, IR이라는 분야를 1년간 주로 논문 및 실제 연구를 통해 공부한 후에 ’교과서’로 다시 읽는 기분은 조금 남다른 데가 있습니다. 학부때처럼 ‘요걸 언제 다 읽어’가 아니라, ‘이걸 이렇게 쓰셨구나.. 그런데 이 부분은 좀 이상한데?’가 되기 때문입니다. 산 아래에서 올려다보는 아득함과, 조금 올라와서 한숨 돌리며 내려다보는 여유의 차이라고 할까요? 아직은 아득함이 압도적이지만 말입니다.

이 책의 존재를 접하고 처음 들었던 의문이 있었습니다.


‘왜 IR책을 NLP연구자가 쓰는거지?’

사실 1저자인 Christopher D. Manning의 출판물 목록을 보면 IR쪽 연구는 거의 하지 않는다는 것을 알 수 있습니다. 연구 관심사를 살펴 보아도 IR은 빠져있군요. NLP와 IR이 그만큼 깊은 관련을 맺고있다는 측면에서 이해할 수도 있고, 그만큼 IR이라는 분야가 널리 각광을 받고 있다고 생각할 수도 있지만, 관련 분야의 연구자가 교과서를 쓰겠다고 나설 수 있을 정도로 아직 IR이라는 분야의 역사나 저변이 충분치 못해서라는 생각이 듭니다. 사실 DB 교과서를 OS 연구자가 쓴다는 건 말이 안 되지 않습니까.

어쨌든 책을 받아들고 읽으면서 이런 우려를 상당 부분 떨쳐버릴 수 있었습니다. 정통 IR에 해당하는 인덱싱이나 검색 모델 부분, 웹 검색에 대부분의 지면이 할애되어 있고, 예전에 주사위책에 있던 Latent Semantic Indexing도 거의 새로 씌인 것 같습니다. 오히려 NLP의 색채를 지우기 위한 노력의 일환인지, 제가 관심을 가졌던 NLP와 IR의 연계 연구에 대해서는 내용이 빈약하다는 느낌을 받을 정도였습니다.

하지만, 역시 본격 IR 교과서로는 미흡하다고 할만한 부분도 눈에 띕니다. 우선 지난번 책에 이어 Clustering과 Classification을 지나치게 많이 (그것도 비슷한 내용으로) 다루면서 IR의 주요 분야인 Question Answering이나 Cross Language IR, Multimedia IR을 누락시킨 것은 이해하기 힘듭니다. 또한 정통 IR 연구의 핵심인 검색 성능 평가(evaluation)부분에서는 평가 결과의 유의성 테스트(significance test)가 전혀 다루어지지 않으며, 평가의 효율성을 높이기 위한 최근 연구성과가 많이 누락되어 있음을 확인했습니다. (사실 이 부분은 실제 IR 연구를 하지 않고서는 깊이있게 쓰기 힘든 점이 있습니다.)

검색 모델 측면에서도 거의 모든 부분에 걸쳐 Vector Space Model(VSM) 을 기준으로 설명이 이루어집니다. 단, 별도로 독립된 Language Model(LM)관련 챕터에서는 LM의 상대적 장점을 분명히 인정하고 있습니다. 작년 말 Draft에서는 좀더 LM쪽에 인색한 평가를 내렸던 점으로 미루어볼때, 그사이에 IR 연구자들의 의견을 반영한 듯 합니다. 어쨌든 이론적으로나 성능으로나 이미 학계의 대세가 된 LM 관련 내용이 부족한 것은 사실입니다. (LM과 관련된 대부분의 연구가 최근에 이루어졌다는 것은 인정합니다만)

이처럼 구성 측면의 아쉬움에도 불구하고 복잡한 개념을 명쾌한 예와 간결한 문장으로 풀해내는 저자들의 능력은 이 책에서도 유감없이 발휘되고 있습니다. 조만간 정통 IR에 더 가까운 책이 나오겠지만, 이 책은 앞으로도 많이 쓰일 것 같습니다. 단, IR로 밥멀이를 하시는 분이 아닌 분이라면 (특히 주사위 책을 갖고계시다면) 웹사이트에서 부분적으로 출력해 보시는 것도 좋지 않을까 하는 판단입니다.

P.S. 이 책의 별명(~책)은 뭐가 될까요? 파란 색이라 물결?, 아니면 표지의 태그?

티스토리 툴바