제 1회 Data Science Meetup 후기

카테고리 없음 : 2012. 5. 19. 12:20   By LiFiDeA

지난주 갑작스럽게 올린 공지에도 불구하고, 거의 서른분에 가까운 참가자분들과 함께 어제 Data Science Meetup을 성황리에 마칠 수 있었습니다. Meetup을 마치고 집에오는 길에 '오늘도 참 많이 배웠다'고 느꼈기에 '성공'이라는 말을 쓸 수 있을 것 같습니다. 여러가지 진행상의 미비점에도 불구하고 흥미있는 이야기를 전해주신 발표자 분들과 소중한 저녁 시간을 내주신 참가자 분들께 공을 돌리고 싶습니다. 물론 장소 및 다과 준비를 후원해주신 NexR의 한재선 박사님, 전희원님께도 다시한번 감사드립니다. 


어제 모임의 성과가 더 많은 분들께 도움이 되었으면 하는 바램에서, 간단한 모임 후기 및 내용요약을 올려봅니다. 물론 Exponential Decay를 자랑하는 제 기억이 날아가기 전에 어제의 배움을 간직하고자 하는 의도가 큽니다 ;) 제가 행사 진행 관계상 메모를 많이 하지 못했기 때문에, 참가자 및 발표자 분들의 더 풍부한 후기를 기대해 봅니다. 관련 트윗을 올려주시거나 검색하시려면 해시태그 #dsci2012를 (관련 트윗 검색 링크) 써주시면 되겠습니다. 


Opening & Introduction


제가 맡은 오프닝은 Data Science / Data Scientist에 대한 Jeff HammerbacherHillary Mason의 정의를 인용하는 것으로 시작했습니다. Jeff의 정의는 데이터 관련 제품과 의사결정이 필요한 조직의 관점에, Hillary의 정의는 Data Scientist가 가져야 하는 스킬의 다양성에 촛점을 맞춥니다.


Organizations use their data for decision support and to build data-intensive products and services. The collection of skills required by organizations to support these functions has been grouped under the term "Data Science". - J. Hammerbacher


A data scientist is someone who can obtain, scrub, explore, model and interpret data, blending hacking, statistics and machine learning – H. Mason
이에 더하여, 참가자 분들과 함께 Data Science의 문제(What)와 테크닉(How)에 대한 일종의 Taxonomy를 만들어 보았습니다. 우선 Data Science에서 다루는 문제를 데이터 / 타겟 유저 / 모데인 및 목적(needs)측면에서 이렇게 나누어 보았습니다. 엄태욱님께서 Big Data에 대한 구분 기준으로 Volume, Variety, Velocity의 세가지가 사용된다는 점을 지적해 주셨습니다. 


또한 이런 문제를 해결하기 위한 Technique은 시스템 인프라 / 데이터 준비 / 분석 및 프리젠테이션으로 나누어 보았습니다. 제가 처음에 만든 표에는 Data Preparation을 빼먹었었는데, 분석에 적합한 형태로 데이터를 준비하고 가공하는 것은 분석 및 그 이후 처리의 성패에 결정적인 경향을 주는 중요한 단계입니다.  Exploratory data analysis는 그 자체가 목표이기도 하지만, 다른 문제 해결의 기반이 되기도 한다는 Insightful한 지적도 나왔습니다. 


Data Scientist라는 새로운 직군을 규정하는 다음 다이어그램도 소개했습니다. 도메인에 대한 심도있는 이해를 바탕으로, 데이터 전처리 및 분석의 모델을 만들고, 이를 실제 구현하여 검증까지 할 수 있는 종합적인 스킬을 요구받는다는 측면에서 Data Scientist는 기존 Domain Expert, Programmer, Researcher와는 구별되는 개념입니다. 



세션 직전에는 참가자분들의 소개가 있었습니다. 학교, 연구소 및 기업에서 오신 참가자 분들께서 어떤 Data Problem을 어떤 Technique을 사용하여 다루시는지에 대해 소개해 주셨습니다. 들으며 Data Science의 정의가 정말 폭넓다는 생각을 했스비다. 많은 분들께서 인터넷 / 통신 / 게임회사 등의 Log Data분석을 담당하고 계셨지만, SNS, 제품 설계 및 금융상품 디자인에 이르기까지 다양한 문제를 언급해 주셨습니다. 


Presentation Session


이후에 각 참가자의 발표가 이어졌습니다. 저는  From Data Science to Information Retrieval라는 제목으로 정보 검색이라는 저의 연구분야를 Data Science관점에서 설명하고, 검색과 추천 기법간의 관계를 비교했습니다. 마지막으로, 검색 연구에 대한 간단한 소개 차원에서 저의 ECIR / CIKM 논문 주제였던 Field Relevance Model을 소개해 드렸습니다. 



이후, Neowiz의 김경민님께서 Graph DB를 사용해 약 700만에 달하는 대용량 데이터 환경에서 Pairwise Affinity계산을 통하여 친구추천을 하는 기법을 다루어 주셨습니다. 서울대 대학원의 강민석님께서는 Social Graph, Music, Geolocation등 이종의 그래프 데이터를 하나의 Heterogeneous 그래프로 통합하고, 이 그래프에서 추출된 Path 정보를 결합하는 방식으로 추천 등 다양한 그래프 기반의 Task성능을 높이는 방법을 소개해 주셨습니다. KIST의 박호건 연구원께서는 SNS에서 마이닝한 시그널을 바탕으로 TV 스포츠 중계 편집을 자동화 / 지능화하는 솔루션을 설명해 주셨습니다. SNS 데이터가 전통적인 미디어라고 할 수 있는 TV 시청의 사용자경험을 최적화하는데 사용될 수 있다는 가능성이 새로웠습니다. 


휴식에 이어 Zum Internet 김우승님의 Infrastructure관련 세션이 이어졌습니다. (우승님의 블로그에서 빅데이터에 대한 좋은 글을 많이 보실 수 있습니다.) RDBMS 기반으로 진행되던 고객사의 Log Mining작업을 Hadoop기반으로 바꾸는 과정에서 있었던 이슈를 상세히 설명해 주셨습니다. 현업에서 빅데이터 프로젝트를 하는데 있어서, 의사결정권자를 설득하는 어려움, 또한 적절한 조직구조의 중요성을 말씀해 주셨습니다. 또한 기존의 Analytical Technique (e.g., Machine Learning) 빅데이터 플렛폼에 효과적으로 사용되기 위해서 많은 수정 및 최적화가 필요하다는 말씀을 해주셨습니다. 


마지막으로 제가, Data-driven Pursuit of Happiness라는 제목으로 길게는 10년간, 짧게는 최근 6개월간 진행한 Self-tracking 프로젝트에 대해 설명했습니다. 데이터를 통한 분석이 개인의 행복과 성취를 극대화하는데 도움을 줄 수 있다는 것이 요지였습니다. 


Discussion

마지막으로 Data Science와 관련된 주제를 놓고 참가자들간의 열띤 토론이 있었습니다. 우선, 유행어처럼 사용되는 Big Data 및 관련 기법이 Data Science관점에서 어떤 의미를 갖는지에 대해 의견을 나누었습니다. 김우승님께서, 소량의 데이터를 분석하기나 대용량 데이터의 Sample을 분석하는 기법에 비하여 Big Data 관련 기술은 데이터 전체를 (모집단) 대상으로 하여 처리 및 분석이 일어난다고 명쾌하게 정리해 주셨습니다. Big Data Analytics에 대해서는 훨씬 많은 연구가 필요하다는 의견도 주셨습니다. (제가 이에 관련하여 Jimmy Lin 교수의 MapReduce 알고리즘 책, 혹은 최근에 나온 Mining Massive Dataset 책을 추천해 드렸습니다. 둘다 PDF로 공개되어 있습니다.)


하지만, Hadoop등의 기술이 Key-Value로 나누어질 수 있는 데이터에 대한 Batch Processing에 최적화된 관계로, 이와 다른 요구 사항이 있을 때에는 R이나 RDBMS등의 대체 솔루션을 사용해야 한다는 지적도 나왔습니다. 전희원님께서 데이터를 Memory한계까지 R에 로딩하여 처리했던 경험을 공유해 주셨습니다. 저의 경우에도 인턴 프로젝트에서 Exploratory Data Analysis를 위해 대용량 원본 데이터를 샘플링하여 MS SQL Server에서 작업을 진행했던 경험이 있습니다. 결국, Opening에서 소개한 표의 각 단계에 해당하는 분석 작업에 맞는 도구를 사용하는 것이 답이라는 결론이었습니다. 아직 Prototype에 머물고 있지만 HadoopDB와 같은 Hybrid Solution도 잠재적인 대안이 될 수 있겠습니다. 


두번째로 Data Scientist의 Role과 Skill, 그리고 장기적인 Career Path에 대한 토론이 있었습니다. Data Scientist가 기존 개발자 및 연구자의 역할을 그럴듯하게 부르는 것에 지나지 않는다는 지적에 대해, 위에서 소개한 다이어그램에서처럼 다양한 역할을 종합적으로 수행하는 점에서 Data Scientist의 존재가치가 있다는 반박이 나왔습니다. 이와 관련하여, 예컨데 검색 모델을 만드는 과업에서 도메인 Expert 및 인프라 Engineer와 헙의해야 빠르고도 효과적인 모델 디자인이 가능하다는 말씀을 해주셨습니다. 이를 들으며 저는, Data Scientist가 각 분야에 대한 어느 정도의 전문성을 갖추고, 필요한 경우 전문가들과 협업할 수 있는 커뮤니케이션 스킬까지 갖춘 영화감독과 같은 존재가 되어야 하겠다는 생각을 했습니다. 


기타 주제로, 특히 Big Data관련 기술이 구글, 야후를 위시한 미국 회사에서 나오고 있는 현황에서, 미국과 한국, 그리고 조직간의 기술 격차에 대한 질문도 있었습니다. 또한 데이터 분석 및 처리를 위한 기법 및 그 결과물을 재활용하는 방법에 대한 의견교환도 있었습니다. 이부분에 대한 제 기억이 희미한 관계로, 참가자 분들께서 채워주시면 감사하겠습니다,


Closing Remark

7시에 시작하여 11시가 넘어서 준비한 순서를 마치고 나니, 보람은 있었지만 따뜻한 저녁도 못드신 참가자 분들에 대한 죄송스러운 마음이 들었습니다. 시간이 너무 늦은 관계로 다음주에 뒷풀이(?) 및 대화의 시간을 갖기로 하고 헤어졌습니다. 휴가답지 않게 12시까지 저녁도 못먹었지만, 여러 고수님을 뵙고, 많이 배웠다는 마음에 뿌듯한 밤이었습니다. 아직 공식적인 학위도 받지 않는 학생 신분으로 이런 모임을 주최하는 것이 많이 주제넘는 일이라고 생각했지만, 참가자분들의 열성에 그런 마음을 잊을 수 있었습니다. 


p.s. 마지막으로, 어제 제가 사용한 발표자료 (Opening / From Data Science to Information Retrieval / Data-driven Pursuit of Happiness 합본) 공유합니다. 발표자 분들께서 허락을 받는대로 다른 발표자료도 공유하도록 하겠습니다.


1st Data Science Meetup in Seoul [pptx]
NexR, Seoul, Korea, May 18, 2012.


또한, Meetup 참가자 및 발표자 분들께서 추가하실 사항이 있으시면, 더 많은 분들과 굥유될 수 있도록 여기 댓글로 남겨주시면 감사하겠습니다. 기타 의견 및 궁금증도 환영입니다!

엇그제 운을 띄웠던 Data Science Meetup in Seoul에 대한 확정공지입니다. 장소 제공에 전희원(@gogamza)님, 그리고 흥보에 힘을 실어주신 임정욱(@estima7)님께 감사 말씀 드리고요, 덕분에 현재까지 학교 및 기업체에 계시는 다양한 배경의 참가자를 모실 수 있게 되었습니다. 아직 세부사항을 확정중이지만, 아래는 간단한 행사 소개입니다.


오시기 전에

Data Science라는 개념, 그리고 Data Scientist라는 직군은 미국에서도 굉장히 새로운 개념이지만, 빅데이터의 등장 및 관련 처리기술의 발달, 그리고 이를 필요로하는 다양한 애플리케이션의 등장으로 최근 관련 컨퍼런스 및 잡 마켓이 붐을 이루고 있습니다. 오시기 전에 아래 링크의 자료를 숙지하고 오시면 도움이 되실 것 같습니다.


http://radar.oreilly.com/2010/06/what-is-data-science.html

http://www.quora.com/What-is-data-science

http://www.quora.com/Career-Advice/How-do-I-become-a-data-scientist

http://thenoisychannel.com/2011/11/01/interview-in-forbes-what-is-a-data-scientist/


일시 및 장소

일시 : 2012. 05.18. 금요일 19:00~21:00 

장소 : NexR 회의실 (강남역 2호선 부근: 서초구 서초동 1321-6 동아타워 4층 KT Cloudware) 

(http://me2.do/5RCp3h


참가자 명단 (일부)

다음은 정보공개에 동의하신 참가자 일부의 명단입니다. 기타 카카오 / LG전자 / 다음 커뮤니케이션 / 서울대 등에서 약 15-20분 정도의 참가자를 모실 예정입니다. 참고로, 이중 전희원님과 김우승님은 7월에 열리는 빅데이터 세미나에 발표자로 참석하십니다. 


전희원/ NexR / @gogamza/ http://freesearch.pe.kr 

김우승 / 줌인터넷(주) / @kimws / http://kimws.wordpress.com

박수혁 / NCSoft Text Data Service Team / @psyoblade / http://dm4ir.tistory.com 

엄태욱 / NCsoft / @taewooke

윤종완 / NCsoft / 

김경민 / 네오위즈게임즈 소셜플랫폼개발팀 / @metamoi

박호건 / KIST / @gsgphg / http://www.hogunpark.com

양수열 / 인피언 컨설팅 부설연구소 / @javaoracle  / www.facebook.com/javaoracle 
전정우/ LG전자 SW역량 강화 센터 & Agile 개발팀
남종철 / 롯데정보통신 책임 / 

행사 진행계획

현재 잠정적인 행사계획은 다음과 같습니다. 우선 저를 포함한 주최측의 Opening Remark로 시작하여, 참가자들의 주제 발표 및 토론을 진행하겠습니다. 주제발표 시간은 참가자별로 10분을 넘지 않을 예정이니 간략하게 준비하시되, 기본적으로는 1) 도메인 및 문제 2) 접근 방법 3) 적용 결과의 형식을 따라주시면 좋을 것 같습니다. 토론은 참가자들의 의견을 수렴하여 Data Science과 관련된 주제에 대한 의견을 공유하실 수 있도록 준비하겠습니다. 


이제 막 학업을 마쳐가는 제가 한국에 계시는 여러분들을 만나뵙고 가르침을 얻고자 만든 자리이지만, 아무쪼록 오시는 분들의 배움과 교류에 도움이 되었으면 되는 바램입니다. 그럼 금요일에 뵙겠습니다!


Job Search를 최근에 마무리했습니다. 여러 회사와의 Interview를 거쳐 Microsoft Bing에서 시작하는 것으로 결정했습니다. 제가 대학원에서 가장 값진 배움의 장으로 기억될만한 시간이었고, 결과적으로도 만족스럽습니다. 제 노력만으로 얻은 결과가 아님을 알기에, 여러 분들께 감사하는 마음입니다. 


Bing으로 결정한 몇가지 이유는 다음과 같습니다. 1) 다른 회사의 오퍼가 모두 Engineering 포지션이었던 반면 Bing에서는 Engineering / Research에 걸치는 Applied Researcher로 오퍼를 받았습니다. 2) 최근 Incremental한 개선에 주력하는 구글에 비해 Bing은 시장을 장악한 구글의 아성에 도전해야 하는 입장으로, 혁신적인 시도를 계속하고 있습니다. 3) 세계 최고수준의 연구진을 갖춘 Microsoft Research의 여러 그룹와 긴밀하게 일할 수 있으며, 지난 두번의 여름을 보낸 Seattle / Pacific Northwest라는 환경도 매력적이었습니다. 


Bing에서 제가 시작하게 될 팀은 검색 품질을 평가하는 업무를 담당합니다. 예전에 언급했지만 검색 성능의 평가는 정보검색 (IR) 연구 및 응용의 핵심에 해당합니다. 끊임없이 변화하는 환경에서 검색자의 마음을 읽어야하는 검색엔진 입장에서 객관적이고(unbiased) 포괄적인(comprehensive) 평가 기법과 척도를 갖는 것은 지속적인 개선과 혁신에 방향타를 제공하는 일이기 때문입니다. 


2009년 런칭후 Bing이 지속하고 있는 혁신 작업에도 제대로 된 평가는 중요한 역할을 합니다. 전통적인 웹 검색엔진이 ten blue link라는 이름의 문서 랭킹 및 평가에만 주력했다면, 최근 검색엔진은 사용자의 의도에 맞는 다양한 컨텐츠를 결과화면에 보여주고 있기에, 이러한 페이지 전체를 평가하는 기법이 Bing 및 MSR 연구자들에 의해 발표되었습니다. 


최근까지 검색 업계의 화두인 실시간 및 개인화 검색의 평가역시, 질의의 시점 및 사용자에 따라 적합한 문서가 다르다는 특성이 기존의 offline 평가기법의 도입을 어렵게 합니다. 이를 보완하는 다양한 online 평가기법이 개발되어 사용되고 있지만, 아직 개선의 여지가 많습니다. 또한 결국은 online과 offline이 결합되어야 온전한(holistic) 평가가 이루어지기에, 이종의 평가 방법론 및 지표를 결합하는 것도 중요한 문제입니다.


마지막으로, 최근 Bing에서는 Facebook 친구들과 협력하여 검색을 할 수 있는 Social / Collaborative Search를 내놓았습니다. 사용자 혼자 끊임없는 문서 목록을 상대해야 하는 기존 모델에 비해 분명 장점을 가진 모델이지만, 역시 이런 변화가 전통적인 방식에 비해 얼마나 검색을 쉽고 빠르게 (또한 재미있게;) 하는지를 평가하는 것은 흥미있는 문제입니다. 전통적인 검색 모델에 개인화 및 인터렉션을 통해 좀더 사용자에게 친화적인 검색을 구현하고자 했던 그동안의 연구를 세계 제 2의 검색엔진에 접목해볼 수 있는 기회라고 생각합니다. 


p.s. 다음주부터 약 2주간 서울에 머무를 예정입니다. 한국에 있는 동안 몇몇 대학 및 기업체에서 발표를 할 예정이지만, 이와 별도로 검색, 추천, 기계학습, 자연어처리를 포함한 Data Science 전반에 관심을 가진 분들과 주제 발표 및 식사를 통해 교류하는 자리를 만들어볼까 합니다. 


정확한 일정 및 세부 사항은 추후 다시 공지하겠지만, 참석 의사가 있으신 분들은 jykim@cs.umass.edu로 메일을 주시거나 트위터 @lifidea로 가능하신 일정 및 희망사항을 미리 알려주시면 좋을 것 같습니다. ^^ 저는 그동안의 연구 내용 요약이나, 최근까지 블로그에 공개했던 Self-Tracking에 대한 간단한 소개를 준비할 생각입니다. 현재 @gogamza님이 참석 의사를 밝혀주셨습니다 (참석자 목록은 본 포스트에 지속적으로 업데이트하겠습니다).