https://brunch.co.kr/@lifidea

 

Jin Young Kim의 브런치

Snap의 데이터 과학자, 데이터 애호가, 데이터 전도사. 삶과 업무에 활용하는 손에 잡히는 데이터과학을 이야기합니다. '헬로 데이터 과학' 저자. '데이터 지능' 팟캐스트 진행자

brunch.co.kr

http://data-intelligence.io/

 

데이터 지능 팟캐스트

전문가들이 들려주는 데이터 & 인공지능 이야기

data-intelligence.io

http://www.hellodatascience.com/

 

헬로 데이터 과학

당신의 삶과 업무를 바꾸는 데이터 과학 (데이터 사이언스)

www.hellodatascience.com

 

앞으로 제 글은 blog.lifidea.com대신 Medium에서 보실 수 있습니다. RSS피드를 구독하시는 분들께서는 Feedburner에서 아래 주소로 바꿔 주시면 감사하겠습니다. 


블로그 주소: https://medium.com/@lifidea

RSS 피드: https://medium.com/feed/@lifidea


자세한 안내는 이 글을 참조하시면 됩니다. 새 터전에서 좀더 알찬 글로 찾아뵙겠습니다.


블로그 이전

카테고리 없음 : 2012. 7. 2. 11:56   By LiFiDeA

대학원 기간동안 익숙하게 사용했던 티스토리를 벗어나 새 블로그에 둥지를 틀었습니다. 커멘트 시스템의 한계나 자잘한 버그에도 불구하고 티스토리를 그동안 비교적 만족스럽게 사용해왔지만, 학생에서 사회로 발을 내딛는 이 시점에, 좀더 전문적으로 블로깅을 해보고픈 마음이었습니다. 컨텐츠 생산/소비의 주류가 이미 다른 SNS로 넘어간 이시점에 블로깅은 약간 고루해 보이지만, 아직도 자신이 오너십을 가지고 컨텐츠를 생산/베포하기에는 블로그만한 플렛폼이 없다는 생각입니다.


새 블로그 주소: http://blog.lifidea.com/


이런 의미에서 새 블로그는 설치형 워드프레스를 사용합니다. 워드프레스는 최근에 실시간 기능이 추가된 DISQUS를 커맨트 시스템으로 지원하기 때문에, 독자들간의 활발한 의사소통을 가능케하는 장점이 있습니다. 앞으로 변화의 여지는 많지만,  잠정적으로는 다음 카테고리에 해당하는 컨텐츠를 올릴 계획입니다.

  • Research: 연구 관련 생각이나 학습 내용
  • Career in USA: 미국에서의 유학 및 직장 생활
  • Journal: 일지, 주로 주간 자기 측정 및 반성
  • Readings: 연구 이외의 아티클, 책 등의 리류
  • Writings: 기타 다양한 소재로 쓰는 수필 / 잡문들

앞으로 많은 응원 부탁드립니다!


박사 과정을 마치면서, 그동안 했던 연구 및 앞으로의 계획에 대해 발표할 기회가 종종 주어집니다. 올해 초에 Job Talk이 있었고, 최근에 한국에서도 제 연구에 대한 한 시간 분량으로 소개할 자리가 있었습니다. 오늘은 그 행사에서 썼던 발표자료와 동영상을 공유할까 합니다. 원래 한글로 발표할 계획이었습니다만, 청중 가운데 외국인이 계서서 영어로 진행하였습니다.


저의 발표는 '검색'이라는 분야 및 저의 주요 연구내용, 그리고 앞으로의 트렌드에 대한 전망으로 마무리됩니다. 대부분 검색 연구경험이 없는 학생들을 대상으로, 한 시간동안 진행한 발표라, 전체적으로 기술적인 내용을 깊게 다루지는 않습니다. 하지만, 검색 연구가 어떤 식으로 진행되는지에 대한 감을 드리는 차원에서, 저의 논문중 구조화된 문서의 검색에 사용되는 검색모델에 대해 (PRM-S / FRM) 자세히 설명합니다. 


발표자료는 아래 SlideShare에서 보실 수 있지만, 중간중간 삽입된 애니메이션이 제대로 보이지 앖기 때문에, 여기서 다운로드 받으실 것을 권장합니다.


위에서 주최측에서 준비해주신 발표 동영상을 보실수도 있습니다. 조금 어둡게 쵤영되기는 했지만, 내용 전달에 큰 무리는 없으리라 봅니다. HD버튼을 누르시면 훨씬 더 선명한 영상을 보실 수 있습니다.


아직 갈길이 멀지만, 배움의 여정 중간중간 이렇게 그동안의 여정을 공유할 자리가 있다는 것은 감사한 일입니다. 자료를 보시고 더 궁금하신 내용이나, comment가 있으신 분은 답글로 남겨주시면 감사하겠습니다. ^^


요며칠 개인적인 사정으로 업데이트가 늦어졌습니다만, 지난주 목요일의 CS 유학 모임을 여러분의 참여로 성황리에 마칠 수 있었습니다. 지난번 데이터 사이언스 모임에서처럼, 저의 발표보다는 여러분들의 경험과 지식에서 많이 배울 수 있었던 것 같습니다. CSUhak.info주최 모임으로, 저도 CS 전공이기는 하지만, 본 발표의 내용은 많은부분 다른 전공에서 적용가능하다고 믿습니다. (반면에 CS중에서도 AI 및 검색 분야에 치우친 내용이기도 합니다.)


이번 모임을 처음에 기획하고 저를 초청해주셨으며, 패널리스트로 참석해주신 이병호님과 (CSUhak.info 운영자이십니다.) 제 학교 선배님으로 경희대 전자공학과 조교수로 올해 임용되신 박욱님께 다시금 감사의 말씀 전하고 싶습니다. 이병호님께서는 석사 유학에 대한 경험담을 공유해 주셨고, 그리고 박욱님께서는 국내에서 학위를 마치신 만큼, 자칫 유학 중심으로 치우치기 쉬운 논의의 중심을 잡아주셨습니다.


제 발표는 크게 4가지로 부분으로 구성됩니다. 우선, '유학이라는 선택'에서는 대학원 유학이라는 결심에 이르기까지의 선택 기준 및 기회비용, 그리고 구체적인 유학의 유형을 (석사 vs. 박사) 짚어봅니다. '줄서지 않는 유학준비'에서는 자신에게 맞는 학교를 선택하고 지원하는 과정에서 도움이 될만한 내용을 원칙 위주로 설명합니다. '미국유학 초기에 살아남기'는 미국사회 및 대학원 학업에 성공적으로 적응 / 정착하는 방법을 다릅니다. 마지막, '학생에서 전문가로'는 유학 이후의 진로탐색을 학교 및 기업체로 나누어 살펴봅니다.


첫 부분에 밝혔지만, 본 발표는 저의 상황과 주관적인 경험에 기초한 것임을 강조합니다. 저의 목표는 유학이라는 무수히 다양한 선택에 일반론을 세운다는 거의 불가능에 가까운 시도를 하겠다는 것이 아니라, 저의 주관적인 경험을 바탕으로 상식처럼 알려진 여러가지 믿음에 대해 다른 견해를 제시하는 것에 가깝습니다. 이 발표를 비판적인 시각으로 보시고, 유학에 대한 여러분 자신의 주관을 세우실 수 있도록 돕고싶은 것이 저의 바램입니다.


더 자세한 부분은 이전 포스팅에 올린 유학관련 자료모음을 참조하시고, 특히 많은 부분이 (특히 유학준비 관련) 제 블로그에서 다루어진 내용이기에, 관련글을 참고하시면 되겠습니다. 행사의 결과물을 다 많은 분들과 공유하는 차원에서, 발표자료 및 동영상을 여기에 공유합니다. 모임에 참여하셨던 분, 혹은 이 자료를 보시는 분들 모두 의견이 있으시면 댓글로 남겨주시고요, 주변에 유학생 및 준비하시는 분들께 공유 부탁드립니다.


발표자료

발표자료는 아래 PPT를 받으시거나, Slideshare를 보실 수 있습니다. 

발표동영상

아래 주소에서 발표동영상을 보실 수 있습니다. 3개의 Part로 나뉘어 전체 약 3시간 정도 됩니다. 


유학이라는 선택 / 참가자 소개


줄서지 않는 유학 준비 / 유학 초기에 살아남기



학생에서 전문가로 / 질의응답




(제 EduHow블로그에 cross-posting된 내용입니다. 아직 자리 여유가 있으니, 원하시는 분께서는 가능한 조속히 참가 신청을 부탁드립니다. 


제가 예전에 큰 도움을 받은 CSUhak.info 사이트 운영자님의 연락을 받고, 선배에게서 듣는 Computer Science 유학 이야기라는 제목의 모임에 참석하게 되었습니다. 며칠 전에 제가 주최했던 Data Science Meetup에 이어 이처럼 주제넘은 행보(?)를 계속하고 있는 것은, 한국에 머무는 며칠 안되는 시간동안 최대한 여러분을 뵙고 소통하고픈 마음에서입니다. 학위 Defense를 앞두고 있는 제가 아직 대단한 성취를 이룬것도 없이 나선다는 부끄러움보다는, 해보지도 않고 후회하는 것을 싫어하는 성격 탓에, 그동안 부딛히고 깨지며 경험했던 성공 및 실패담에서 무언가 공유할만한게 있을 것이라는 믿음이 조금 컸던 것 같습니다. 


그동안 썼던 여러 글을 바탕으로, CS 대학원 유학 준비과정, 유학 초기에 생활 및 학교 생활에 적응하기, 유학 후 진로 결정등에 대한 이야기를 준비해 볼 생각입니다. 주로 다음 주소에서 찾으실 수 있는 글들입니다.


http://eduhow.tistory.com/notice/77 (유학 뒤집기 연재)

http://eduhow.tistory.com/category/유학준비

http://eduhow.tistory.com/category/유학생활

http://lifidea.tistory.com/category/유학생활


모임에서는 제 개인의 이야기와 함께, 제가 그동안 보고 듣고 느낀점을 공유할 생각입니다. 유학 및 대학원 생활에 대해 그동안 읽었던 글들이 큰 도움이 되었습니다. 많은 학자들은 교육자이기도 하기 때문에, 대학원생을 위한 조언은 참 많습니다만, 다음 글은 꼭 읽어보시길 추천합니다. 인터넷에 "Advice for Graduate Student'식으로 찾아보시면 이런 형식의 자료모음도 참 많습니다.


< 한글자료 >

http://filldream.tistory.com/ (다 아시는 필드림님의 미국 취업/생활 관련 블로그)

http://blog.naver.com/profjun (외대 언어학 교수님의 '학자가 되는 법' 블로그)

http://sbmoon.tistory.com/203 (KAIST 문수복교수님의 '대학원생 이상향')

이대 오욱환 교수님의 '젊은 학자들을 위한 조언'

Richard Hamming의 'You and Your Research' 번역 (서울대 이광근 교수님)

내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우 (서울대 최윤섭 교수님)


< 영문자료 >

http://people.cs.umass.edu/~wallach/how_to_be_a_successful_phd_student.pdf 

(UMass 신임 교수님의 CS대학원생을 위한 조언)

http://www.joelonsoftware.com/articles/CollegeAdvice.html 

(CS학부생을 위한 Joel Spolsky의 조언)

http://lemire.me/blog/rules-to-write-a-good-research-paper/ (좋은 논문 쓰는 법)

http://www.quora.com/Life-Advice/Knowing-what-you-know-now-would-you-still-get-a-PhD-if-you-had-the-chance-to-go-back-and-do-it-over-again


저뿐만 아니라 CS 전공으로 유학중인 다른 분들도 모시고, 폭넓은 의견을 교환할 수 있도록 하겠습니다. 참석여부는 모임 페이지에 알려주시면 되고요, 특히 궁금하신 점이 있으시면 이 글에 댓글로 달아주시면 좋겠습니다. 주변에 유학 준비하시는 분들께 널리 알려지도록 아래 추천도 꾸욱 눌러주세요.


그럼, 목요일에 뵙겠습니다!

제 1회 Data Science Meetup 후기

카테고리 없음 : 2012. 5. 19. 12:20   By LiFiDeA

지난주 갑작스럽게 올린 공지에도 불구하고, 거의 서른분에 가까운 참가자분들과 함께 어제 Data Science Meetup을 성황리에 마칠 수 있었습니다. Meetup을 마치고 집에오는 길에 '오늘도 참 많이 배웠다'고 느꼈기에 '성공'이라는 말을 쓸 수 있을 것 같습니다. 여러가지 진행상의 미비점에도 불구하고 흥미있는 이야기를 전해주신 발표자 분들과 소중한 저녁 시간을 내주신 참가자 분들께 공을 돌리고 싶습니다. 물론 장소 및 다과 준비를 후원해주신 NexR의 한재선 박사님, 전희원님께도 다시한번 감사드립니다. 


어제 모임의 성과가 더 많은 분들께 도움이 되었으면 하는 바램에서, 간단한 모임 후기 및 내용요약을 올려봅니다. 물론 Exponential Decay를 자랑하는 제 기억이 날아가기 전에 어제의 배움을 간직하고자 하는 의도가 큽니다 ;) 제가 행사 진행 관계상 메모를 많이 하지 못했기 때문에, 참가자 및 발표자 분들의 더 풍부한 후기를 기대해 봅니다. 관련 트윗을 올려주시거나 검색하시려면 해시태그 #dsci2012를 (관련 트윗 검색 링크) 써주시면 되겠습니다. 


Opening & Introduction


제가 맡은 오프닝은 Data Science / Data Scientist에 대한 Jeff HammerbacherHillary Mason의 정의를 인용하는 것으로 시작했습니다. Jeff의 정의는 데이터 관련 제품과 의사결정이 필요한 조직의 관점에, Hillary의 정의는 Data Scientist가 가져야 하는 스킬의 다양성에 촛점을 맞춥니다.


Organizations use their data for decision support and to build data-intensive products and services. The collection of skills required by organizations to support these functions has been grouped under the term "Data Science". - J. Hammerbacher


A data scientist is someone who can obtain, scrub, explore, model and interpret data, blending hacking, statistics and machine learning – H. Mason
이에 더하여, 참가자 분들과 함께 Data Science의 문제(What)와 테크닉(How)에 대한 일종의 Taxonomy를 만들어 보았습니다. 우선 Data Science에서 다루는 문제를 데이터 / 타겟 유저 / 모데인 및 목적(needs)측면에서 이렇게 나누어 보았습니다. 엄태욱님께서 Big Data에 대한 구분 기준으로 Volume, Variety, Velocity의 세가지가 사용된다는 점을 지적해 주셨습니다. 


또한 이런 문제를 해결하기 위한 Technique은 시스템 인프라 / 데이터 준비 / 분석 및 프리젠테이션으로 나누어 보았습니다. 제가 처음에 만든 표에는 Data Preparation을 빼먹었었는데, 분석에 적합한 형태로 데이터를 준비하고 가공하는 것은 분석 및 그 이후 처리의 성패에 결정적인 경향을 주는 중요한 단계입니다.  Exploratory data analysis는 그 자체가 목표이기도 하지만, 다른 문제 해결의 기반이 되기도 한다는 Insightful한 지적도 나왔습니다. 


Data Scientist라는 새로운 직군을 규정하는 다음 다이어그램도 소개했습니다. 도메인에 대한 심도있는 이해를 바탕으로, 데이터 전처리 및 분석의 모델을 만들고, 이를 실제 구현하여 검증까지 할 수 있는 종합적인 스킬을 요구받는다는 측면에서 Data Scientist는 기존 Domain Expert, Programmer, Researcher와는 구별되는 개념입니다. 



세션 직전에는 참가자분들의 소개가 있었습니다. 학교, 연구소 및 기업에서 오신 참가자 분들께서 어떤 Data Problem을 어떤 Technique을 사용하여 다루시는지에 대해 소개해 주셨습니다. 들으며 Data Science의 정의가 정말 폭넓다는 생각을 했스비다. 많은 분들께서 인터넷 / 통신 / 게임회사 등의 Log Data분석을 담당하고 계셨지만, SNS, 제품 설계 및 금융상품 디자인에 이르기까지 다양한 문제를 언급해 주셨습니다. 


Presentation Session


이후에 각 참가자의 발표가 이어졌습니다. 저는  From Data Science to Information Retrieval라는 제목으로 정보 검색이라는 저의 연구분야를 Data Science관점에서 설명하고, 검색과 추천 기법간의 관계를 비교했습니다. 마지막으로, 검색 연구에 대한 간단한 소개 차원에서 저의 ECIR / CIKM 논문 주제였던 Field Relevance Model을 소개해 드렸습니다. 



이후, Neowiz의 김경민님께서 Graph DB를 사용해 약 700만에 달하는 대용량 데이터 환경에서 Pairwise Affinity계산을 통하여 친구추천을 하는 기법을 다루어 주셨습니다. 서울대 대학원의 강민석님께서는 Social Graph, Music, Geolocation등 이종의 그래프 데이터를 하나의 Heterogeneous 그래프로 통합하고, 이 그래프에서 추출된 Path 정보를 결합하는 방식으로 추천 등 다양한 그래프 기반의 Task성능을 높이는 방법을 소개해 주셨습니다. KIST의 박호건 연구원께서는 SNS에서 마이닝한 시그널을 바탕으로 TV 스포츠 중계 편집을 자동화 / 지능화하는 솔루션을 설명해 주셨습니다. SNS 데이터가 전통적인 미디어라고 할 수 있는 TV 시청의 사용자경험을 최적화하는데 사용될 수 있다는 가능성이 새로웠습니다. 


휴식에 이어 Zum Internet 김우승님의 Infrastructure관련 세션이 이어졌습니다. (우승님의 블로그에서 빅데이터에 대한 좋은 글을 많이 보실 수 있습니다.) RDBMS 기반으로 진행되던 고객사의 Log Mining작업을 Hadoop기반으로 바꾸는 과정에서 있었던 이슈를 상세히 설명해 주셨습니다. 현업에서 빅데이터 프로젝트를 하는데 있어서, 의사결정권자를 설득하는 어려움, 또한 적절한 조직구조의 중요성을 말씀해 주셨습니다. 또한 기존의 Analytical Technique (e.g., Machine Learning) 빅데이터 플렛폼에 효과적으로 사용되기 위해서 많은 수정 및 최적화가 필요하다는 말씀을 해주셨습니다. 


마지막으로 제가, Data-driven Pursuit of Happiness라는 제목으로 길게는 10년간, 짧게는 최근 6개월간 진행한 Self-tracking 프로젝트에 대해 설명했습니다. 데이터를 통한 분석이 개인의 행복과 성취를 극대화하는데 도움을 줄 수 있다는 것이 요지였습니다. 


Discussion

마지막으로 Data Science와 관련된 주제를 놓고 참가자들간의 열띤 토론이 있었습니다. 우선, 유행어처럼 사용되는 Big Data 및 관련 기법이 Data Science관점에서 어떤 의미를 갖는지에 대해 의견을 나누었습니다. 김우승님께서, 소량의 데이터를 분석하기나 대용량 데이터의 Sample을 분석하는 기법에 비하여 Big Data 관련 기술은 데이터 전체를 (모집단) 대상으로 하여 처리 및 분석이 일어난다고 명쾌하게 정리해 주셨습니다. Big Data Analytics에 대해서는 훨씬 많은 연구가 필요하다는 의견도 주셨습니다. (제가 이에 관련하여 Jimmy Lin 교수의 MapReduce 알고리즘 책, 혹은 최근에 나온 Mining Massive Dataset 책을 추천해 드렸습니다. 둘다 PDF로 공개되어 있습니다.)


하지만, Hadoop등의 기술이 Key-Value로 나누어질 수 있는 데이터에 대한 Batch Processing에 최적화된 관계로, 이와 다른 요구 사항이 있을 때에는 R이나 RDBMS등의 대체 솔루션을 사용해야 한다는 지적도 나왔습니다. 전희원님께서 데이터를 Memory한계까지 R에 로딩하여 처리했던 경험을 공유해 주셨습니다. 저의 경우에도 인턴 프로젝트에서 Exploratory Data Analysis를 위해 대용량 원본 데이터를 샘플링하여 MS SQL Server에서 작업을 진행했던 경험이 있습니다. 결국, Opening에서 소개한 표의 각 단계에 해당하는 분석 작업에 맞는 도구를 사용하는 것이 답이라는 결론이었습니다. 아직 Prototype에 머물고 있지만 HadoopDB와 같은 Hybrid Solution도 잠재적인 대안이 될 수 있겠습니다. 


두번째로 Data Scientist의 Role과 Skill, 그리고 장기적인 Career Path에 대한 토론이 있었습니다. Data Scientist가 기존 개발자 및 연구자의 역할을 그럴듯하게 부르는 것에 지나지 않는다는 지적에 대해, 위에서 소개한 다이어그램에서처럼 다양한 역할을 종합적으로 수행하는 점에서 Data Scientist의 존재가치가 있다는 반박이 나왔습니다. 이와 관련하여, 예컨데 검색 모델을 만드는 과업에서 도메인 Expert 및 인프라 Engineer와 헙의해야 빠르고도 효과적인 모델 디자인이 가능하다는 말씀을 해주셨습니다. 이를 들으며 저는, Data Scientist가 각 분야에 대한 어느 정도의 전문성을 갖추고, 필요한 경우 전문가들과 협업할 수 있는 커뮤니케이션 스킬까지 갖춘 영화감독과 같은 존재가 되어야 하겠다는 생각을 했습니다. 


기타 주제로, 특히 Big Data관련 기술이 구글, 야후를 위시한 미국 회사에서 나오고 있는 현황에서, 미국과 한국, 그리고 조직간의 기술 격차에 대한 질문도 있었습니다. 또한 데이터 분석 및 처리를 위한 기법 및 그 결과물을 재활용하는 방법에 대한 의견교환도 있었습니다. 이부분에 대한 제 기억이 희미한 관계로, 참가자 분들께서 채워주시면 감사하겠습니다,


Closing Remark

7시에 시작하여 11시가 넘어서 준비한 순서를 마치고 나니, 보람은 있었지만 따뜻한 저녁도 못드신 참가자 분들에 대한 죄송스러운 마음이 들었습니다. 시간이 너무 늦은 관계로 다음주에 뒷풀이(?) 및 대화의 시간을 갖기로 하고 헤어졌습니다. 휴가답지 않게 12시까지 저녁도 못먹었지만, 여러 고수님을 뵙고, 많이 배웠다는 마음에 뿌듯한 밤이었습니다. 아직 공식적인 학위도 받지 않는 학생 신분으로 이런 모임을 주최하는 것이 많이 주제넘는 일이라고 생각했지만, 참가자분들의 열성에 그런 마음을 잊을 수 있었습니다. 


p.s. 마지막으로, 어제 제가 사용한 발표자료 (Opening / From Data Science to Information Retrieval / Data-driven Pursuit of Happiness 합본) 공유합니다. 발표자 분들께서 허락을 받는대로 다른 발표자료도 공유하도록 하겠습니다.


1st Data Science Meetup in Seoul [pptx]
NexR, Seoul, Korea, May 18, 2012.


또한, Meetup 참가자 및 발표자 분들께서 추가하실 사항이 있으시면, 더 많은 분들과 굥유될 수 있도록 여기 댓글로 남겨주시면 감사하겠습니다. 기타 의견 및 궁금증도 환영입니다!

엇그제 운을 띄웠던 Data Science Meetup in Seoul에 대한 확정공지입니다. 장소 제공에 전희원(@gogamza)님, 그리고 흥보에 힘을 실어주신 임정욱(@estima7)님께 감사 말씀 드리고요, 덕분에 현재까지 학교 및 기업체에 계시는 다양한 배경의 참가자를 모실 수 있게 되었습니다. 아직 세부사항을 확정중이지만, 아래는 간단한 행사 소개입니다.


오시기 전에

Data Science라는 개념, 그리고 Data Scientist라는 직군은 미국에서도 굉장히 새로운 개념이지만, 빅데이터의 등장 및 관련 처리기술의 발달, 그리고 이를 필요로하는 다양한 애플리케이션의 등장으로 최근 관련 컨퍼런스 및 잡 마켓이 붐을 이루고 있습니다. 오시기 전에 아래 링크의 자료를 숙지하고 오시면 도움이 되실 것 같습니다.


http://radar.oreilly.com/2010/06/what-is-data-science.html

http://www.quora.com/What-is-data-science

http://www.quora.com/Career-Advice/How-do-I-become-a-data-scientist

http://thenoisychannel.com/2011/11/01/interview-in-forbes-what-is-a-data-scientist/


일시 및 장소

일시 : 2012. 05.18. 금요일 19:00~21:00 

장소 : NexR 회의실 (강남역 2호선 부근: 서초구 서초동 1321-6 동아타워 4층 KT Cloudware) 

(http://me2.do/5RCp3h


참가자 명단 (일부)

다음은 정보공개에 동의하신 참가자 일부의 명단입니다. 기타 카카오 / LG전자 / 다음 커뮤니케이션 / 서울대 등에서 약 15-20분 정도의 참가자를 모실 예정입니다. 참고로, 이중 전희원님과 김우승님은 7월에 열리는 빅데이터 세미나에 발표자로 참석하십니다. 


전희원/ NexR / @gogamza/ http://freesearch.pe.kr 

김우승 / 줌인터넷(주) / @kimws / http://kimws.wordpress.com

박수혁 / NCSoft Text Data Service Team / @psyoblade / http://dm4ir.tistory.com 

엄태욱 / NCsoft / @taewooke

윤종완 / NCsoft / 

김경민 / 네오위즈게임즈 소셜플랫폼개발팀 / @metamoi

박호건 / KIST / @gsgphg / http://www.hogunpark.com

양수열 / 인피언 컨설팅 부설연구소 / @javaoracle  / www.facebook.com/javaoracle 
전정우/ LG전자 SW역량 강화 센터 & Agile 개발팀
남종철 / 롯데정보통신 책임 / 

행사 진행계획

현재 잠정적인 행사계획은 다음과 같습니다. 우선 저를 포함한 주최측의 Opening Remark로 시작하여, 참가자들의 주제 발표 및 토론을 진행하겠습니다. 주제발표 시간은 참가자별로 10분을 넘지 않을 예정이니 간략하게 준비하시되, 기본적으로는 1) 도메인 및 문제 2) 접근 방법 3) 적용 결과의 형식을 따라주시면 좋을 것 같습니다. 토론은 참가자들의 의견을 수렴하여 Data Science과 관련된 주제에 대한 의견을 공유하실 수 있도록 준비하겠습니다. 


이제 막 학업을 마쳐가는 제가 한국에 계시는 여러분들을 만나뵙고 가르침을 얻고자 만든 자리이지만, 아무쪼록 오시는 분들의 배움과 교류에 도움이 되었으면 되는 바램입니다. 그럼 금요일에 뵙겠습니다!


며칠 전, 1년 반만에 한국행 비행기에 올랐습니다. 유학 초기에 서슬퍼런 각오를 다지던 기억이 엇그제같은데, 앞으로의 진로를 결정짓고 고국으로 돌아가는 스스로의 모습이 아직 낯설었습니다. 유학 초기에 대학원과 미국 생활에 동시에 적응해 나가는 하루하루가 도전이었는데, 이제는 미국에서 연구자로서의 삶이 공기를 들여마시는 것처럼 편안해졌습니다. 처음에는 해수면에서 8000미터의 Death Zone으로 갑자기 올라간 느낌이었는데, 5년간 Sherpa의 심장을 얻었나 봅니다.


Journey is the reward라는 잡스의 말을 신봉하는 편이지만, 최근 문득 유학생활 동안 얻은 것과 잃은 것을 생각해 보았습니다. 경력상으로는 원하는 것을 얻었을지 몰라도, 그 과정에서 스스로에게나 주변사람에게나 많은 것을 '강요'해오지 않았나 합니다. 개인적으로는 익숙한 환경을 떠나 낯선 곳에서 시작하는 어려움이 있었고, 그 과정에서 그동안 저를 있게해준 대부분의 사람들과 떨어져 지내야 했습니다. 결과에 관계없이, 만약 그 과정에서 상처가 있었다면 어떤 식으로든 치유해야 한다고 생각했습니다. 

나는 여행을 통해 20년간 나를 지배해온 관습을 버리려고 했다.

출근하기 위해 아침에 하는 면도. 평일 대낮의 자유를 비정상적으로 인식하는 사회에 대한 공표. 지위가 높은 사람에게서 느끼는 심리적 압박. 월급에 대한 안심. 인생에 대한 유한 책임.

20년만에 주어진 한달 반의 여행은 그렇게 시작되었다.

-구본형, '떠남과 만남' 초판 서문

그래서 계획한 한국행이었습니다. 그리고, 그 여행에 영감을 준 것은 예전에 읽었던 구본형씨의 '떠남과 만남'이라는 책, 특히 글머리에 인용한 서문이었습니다. 20년간 다니던 직장에 사표를 내고, 발길 닿는대로 남도를 유랑한 그의 여정이 저의 나침반이 되었습니다. 5년간의 대학원 생활, 그리고 앞으로 몇년이 될지도 모르는 미국 생활 사이에 분명한 선을 긋자고 마음먹었습니다. 한달의 시간을 통째로 버리겠다고 마음먹은 것은 아니기에, 스스로에 대한 몇가지 목표를 세웠습니다. 


강요없는 자기통제

그동안 저의 행복도에 대한 Self-tracking을 하면서 지속적으로 발견한 패턴이 한가지 있습니다. 외적인 강제가 있는 상황이나 (평일 오전, 시험, 면접, 교수님과의 미팅) 환경에서의 (학회장, 연구실) 만족도가 그렇지 않은 경우보다 훨씬 높았다는 것입니다. 외적 제약이 스스로의 통제력을 높이고, 이런 모습이 자존감과 만족도를 높인 반면에, 외적 제약이 사라진 상태에서 자기통제가 느슨해지면서 만족스러운 시간을 보내지 못했다는 해석이 가능합니다. 꾸준히 공부하기 위해 잡지 기고를 요청했다는 안철수씨의 말처럼 외적 제약을 효과적으로 이용하는 것도 필요하겠지만, 마음속 깊은 곳에서 스스로를 움직일 수 있는 동력을 끄집어낼 수 없다면 슬픈 일입니다.


그래서 앞으로 한달간은 스스로 되도록 아무것도 강요하지 않으면서 자기통제를 유지하려고 노력해 볼 생각입니다. 외적인 제약을 매개로 의지를 끌어내기보다는 내면의 에너지를 활활 타오르게 하여 자신을 움직이겠다는 것입니다. 스스로에게 완전한 자유를 허용하되, 그 결과에 만족할 수 있는 순간순간을 보내고 싶기 때문입니다. 긴 휴가를 보내보신 분이라면 알겠지만, 자유시간을 만족스럽게 보내는 것은 긴장과 이완의 완급조절을 필요로 하기에 쉬운 일은 아닙니다. 하지만, 살아가기 위해 어떤 구속도 필요치 아니하는 진정으로 자유로운 존재가 되기 위해서는 꼭 갖추어야 할 덕목일 것이라는 생각입니다.


자기 냄새 (스타일)

시오노 나나미의 남자론을 인용하지 않더라도, 한눈에 풍겨나오는 여유와 자신만의 아우라를 가질 수 있는 사람은 대단히 매력적입니다. 하지만, 이런 삶의 태도의 완성은 순간순간 자신의 모든 것을 쏟아부어야 하는 유학생 처지에서는 사치이기도 합니다. 유학 초기에 결과보다는 과정에 충실한 생활을 뜻했지만 학생이라는 신분과 앞날에 대한 불확실성으로 말미암아 이루지 못했던 목표입니다. 


줄서지 않는 삶이라는 삶의 원칙을 일찌기 세웠기에, 굵직굵직한 선택에서나 소소한 일상에서나 '자기 냄새'를 피우기 위해 좀더 노력해 볼 생각입니다. 이는 눈앞의 작은 이득이나 다수에 묻어가는 선택의 안정감을 포기하는 노력을 수반하는 일입니다. 하지만, 그렇게 포기한 이득과 안정감은 그 이상의 성취감과 '매순간 깨어있는 느낌'으로 돌아올 것입니다. 또한 안철수씨나 잡스의 말대로 삶의 목적이 Make a dent in the universe하는 것이라면, 이는 분명 선택할 부분은 아닙니다. 

 

주변을 돌아보는 여유

스스로의 공부를 위해 주변의 모든 사람들을 뒤로해야 하기에, 유학은 본질적으로 자기중심적인 선택입니다. 젊은 날, 자기 자신에게서 최대치를 끄집어내기 위해 노력하는 것은 분명 아름다운 일이지만, 그런 노력이 주변 사람들의 허무감까지 보상해주지는 못합니다. 스스로 원하는 것을 이루더라도, 그 결과가 자신에게만 머문다면 그 얼마나 허무한 일인가요. 그리고 그런 성취가 얼마나 지속가능한 것일까요.


논의를 확장하면, 저는 사람이 가진 것은 모두 누군가에게서 받은 것이라는 말이 진리를 담고 있다고 믿습니다. 그리고, 돈 1원이 나보다 다른 사람에게 더 큰 가치를 가져다준다면 이를 베풀해야 한다고 믿습니다. 하지만, 스스로의 마음에 여유가 없을때 이런 믿음을 실천하기는 쉬운 일이 아닙니다. 매달 생계유지비를 받는 학생에서 직장인이 된 이 시점이 '여유와 베품'라는 화두를 다시 마음에 새길때가 아닌가 합니다. 


평생 기억될 한달을 위해

서두에서 유학생활을 고산 등반에 비유했지만, 어떤 의미에서 작은 산봉우리에 올라서 구름겉힌 주변 풍광들 둘러보는 느낌입니다. 조만간 하산하여 또다른 봉우리로 향할 자신을 알기에, 지금 잠깐의 휴식이 더욱 달콤한지도 모르겠습니다. 위 세가지가 측정이 용이한 목표는 아니지만, 한달 뒤 스스로를 돌이켜 보았을 때, 내 안에 무언가가 변했다는 느낌이 찾아오기를 기원해 봅니다. 


Job Search를 최근에 마무리했습니다. 여러 회사와의 Interview를 거쳐 Microsoft Bing에서 시작하는 것으로 결정했습니다. 제가 대학원에서 가장 값진 배움의 장으로 기억될만한 시간이었고, 결과적으로도 만족스럽습니다. 제 노력만으로 얻은 결과가 아님을 알기에, 여러 분들께 감사하는 마음입니다. 


Bing으로 결정한 몇가지 이유는 다음과 같습니다. 1) 다른 회사의 오퍼가 모두 Engineering 포지션이었던 반면 Bing에서는 Engineering / Research에 걸치는 Applied Researcher로 오퍼를 받았습니다. 2) 최근 Incremental한 개선에 주력하는 구글에 비해 Bing은 시장을 장악한 구글의 아성에 도전해야 하는 입장으로, 혁신적인 시도를 계속하고 있습니다. 3) 세계 최고수준의 연구진을 갖춘 Microsoft Research의 여러 그룹와 긴밀하게 일할 수 있으며, 지난 두번의 여름을 보낸 Seattle / Pacific Northwest라는 환경도 매력적이었습니다. 


Bing에서 제가 시작하게 될 팀은 검색 품질을 평가하는 업무를 담당합니다. 예전에 언급했지만 검색 성능의 평가는 정보검색 (IR) 연구 및 응용의 핵심에 해당합니다. 끊임없이 변화하는 환경에서 검색자의 마음을 읽어야하는 검색엔진 입장에서 객관적이고(unbiased) 포괄적인(comprehensive) 평가 기법과 척도를 갖는 것은 지속적인 개선과 혁신에 방향타를 제공하는 일이기 때문입니다. 


2009년 런칭후 Bing이 지속하고 있는 혁신 작업에도 제대로 된 평가는 중요한 역할을 합니다. 전통적인 웹 검색엔진이 ten blue link라는 이름의 문서 랭킹 및 평가에만 주력했다면, 최근 검색엔진은 사용자의 의도에 맞는 다양한 컨텐츠를 결과화면에 보여주고 있기에, 이러한 페이지 전체를 평가하는 기법이 Bing 및 MSR 연구자들에 의해 발표되었습니다. 


최근까지 검색 업계의 화두인 실시간 및 개인화 검색의 평가역시, 질의의 시점 및 사용자에 따라 적합한 문서가 다르다는 특성이 기존의 offline 평가기법의 도입을 어렵게 합니다. 이를 보완하는 다양한 online 평가기법이 개발되어 사용되고 있지만, 아직 개선의 여지가 많습니다. 또한 결국은 online과 offline이 결합되어야 온전한(holistic) 평가가 이루어지기에, 이종의 평가 방법론 및 지표를 결합하는 것도 중요한 문제입니다.


마지막으로, 최근 Bing에서는 Facebook 친구들과 협력하여 검색을 할 수 있는 Social / Collaborative Search를 내놓았습니다. 사용자 혼자 끊임없는 문서 목록을 상대해야 하는 기존 모델에 비해 분명 장점을 가진 모델이지만, 역시 이런 변화가 전통적인 방식에 비해 얼마나 검색을 쉽고 빠르게 (또한 재미있게;) 하는지를 평가하는 것은 흥미있는 문제입니다. 전통적인 검색 모델에 개인화 및 인터렉션을 통해 좀더 사용자에게 친화적인 검색을 구현하고자 했던 그동안의 연구를 세계 제 2의 검색엔진에 접목해볼 수 있는 기회라고 생각합니다. 


p.s. 다음주부터 약 2주간 서울에 머무를 예정입니다. 한국에 있는 동안 몇몇 대학 및 기업체에서 발표를 할 예정이지만, 이와 별도로 검색, 추천, 기계학습, 자연어처리를 포함한 Data Science 전반에 관심을 가진 분들과 주제 발표 및 식사를 통해 교류하는 자리를 만들어볼까 합니다. 


정확한 일정 및 세부 사항은 추후 다시 공지하겠지만, 참석 의사가 있으신 분들은 jykim@cs.umass.edu로 메일을 주시거나 트위터 @lifidea로 가능하신 일정 및 희망사항을 미리 알려주시면 좋을 것 같습니다. ^^ 저는 그동안의 연구 내용 요약이나, 최근까지 블로그에 공개했던 Self-Tracking에 대한 간단한 소개를 준비할 생각입니다. 현재 @gogamza님이 참석 의사를 밝혀주셨습니다 (참석자 목록은 본 포스트에 지속적으로 업데이트하겠습니다).