서울대 데이터 마이닝 캠프

2월 11일에 서울대학교에서 개최된 데이터 마이닝 캠프에 다녀왔다. 약 140명의 학생들이 참여하여 아침 9시에 시작해서 오후 5시까지 강의와 조별 프로젝트, 질의응답, 그리고 시상식 등의 활동을 하였다.

강의

데이터 마이닝 캠프에서 총 6개의 강의를 들었다. 고등학생을 위한 강좌이기에 대체로 어렵지 않은 내용이었고 데이터 마이닝의 기본적인 개념들을 이해하는 데에 큰 도움이 되었다.

첫 번째 강의는 데이터 마이닝과 빅 데이터의 기본적인 뜻과 대표적인 적용 사례를 설명한 후에 데이터 마이너가 되기 위해 해야 하는 공부와 선택해야 하는 전공을 알아보았다.

두 번째 강의는 데이터 마이닝을 이용해서 연속형 예측과 분류를 통해 미래의 값을 추측하는 법에 관한 내용이었다. 연속형 데이터와 범주형 데이터의 차이를 알아보고 그에 따라 예측과 분류로 미래의 값을 추측할 수 있다는 것을 배웠다. 그 중 가장 핵심적인 내용은 KNN 기법을 이용한 분류와 예측이었다.

그 다음 이어진 강의는 클러스터링, 즉 군집화에 관한 내용이었다. 개체들의 유사도를 조사하여 매칭 계수(matching coefficient) 또는 자카드 계수(Jaccard’s coefficient)를 사용하여 유사도를 계산하는 법을 배웠다. 이어서 거리 척도를 구하는 법과 군집간 거리를 최단 연결법, 최장 연결법, 평균 연결법을 이용해 구하는 법도 알아보았다.

오후에 이어진 네 번째 강의는 이미지/동영상 마이닝에 대한 강의였다. 컴퓨터가 윈도우를 이용해 얼굴과 손동작 감지, 의료 영상 분석, 지능형 비디오 감시, 비디오 검색의 방법과 사례를 살펴보았다.

다섯 번째 강의는 데이터 시각화를 중점적으로 살펴보았다. 순수한 정보와 시각화된 정보를 비교하여 시각화의 중요성을 느낄 수 있엇고 정보 시각화의 목표가 사람의 인지를 확장시키고 통찰을 발견하는 것이라는 것을 알게되었다. 끝으로는 데이터 마이닝을 할 때에는 사람에 대한 이해가 중요하다는 것을 배웠다.

마지막 강의는 그 전의 강의들과는 좀 달랐다. 이전 강의들은 대학교의 교수님들이 하셨지만 이 강의는 데이터 마이닝 전문 기업인 ‘다음소프트’의 송길영 부사장님께서 해주셨다. 추석과 하루 일과 등 우리의 일상 생활과 큰 관련이 있는 주제들에 대한 것이었다. 데이터 마이닝으로 사람의 심리와 특성을 분석하고 그에 따라 마케팅 전략과 어떠한 문제에 대한 해결 방안을 제시하는 것을 볼 수 있었다.

팀 프로젝트

데이터 마이닝 캠프에서 4인 1조로 조별로 나뉘어서 팀 프로젝트를 하는 시간이 있었다.

두 개의 팀 프로젝트가 있었는데 그 중 첫 번째는 ‘클러스터링 게임’이었다. 클러스터링 게임은 조별로 10개의 질문을 정하고 주변의 사람들에게 그 질문을 불어봐서 몇 개의 군집으로 나누는 활동이었다. 클러스터링을 직접해보니 생각보다 굉장히 어려웠다. 질문을 통해 얻은 정보를 전부 활용하는 것도 어려웠고, 그 정보를 가지고 사람별로 특징을 뽑아내서 군집으로 묶는 것도 상당히 어려운 작업이었다.

두 번째 하게 된 팀 프로젝트는 오전에 배운 데이터 마이닝의 기본을 모두 활용하는 것이었다. 세 개의 3D 영화가 동시에 개봉할 때, 북미에 있는 4100개의 3D 스크린에 어떻게하면 최적의 분배를 할 수 있을지에 대한 문제가 주어졌고, 조별로 이를 위한 데이터 마이닝의 계획을 직성했다.

내가 속한 조는 SNS에서 영화의 사전 관심도, 유사한 영화의 흥행도, 감독과 출연 배우들의 인기도를 변수로 하여 영화 각각의 흥행도를 예측한 후에 주요 관심 연령대, 상영관의 연령 분포, 상영관에서의 유사 영화 흥행도를 변수로 놓아 각 상영관에서의 영화별 티켓 판매량을 별도로 예측하는 계획을 세웠다. 그리고 두 개의 예측값을 종합하여 최종적으로 최적의 상영관 배분을 결정하는 계획서를 작성하였다. 우리 조의 계획서는 채점을 거친 후 약 35개의 조 중에서 3등상인 동상을 수상하게 되었다.

소감

이번 데이터 마이닝 캠프는 나에게 큰 도움이 되었다. 데이터 마이닝에 대해서 더욱 자세히 알게될 수 있었고 데이터 마이닝을 어떤 분야에서 활용할 수 있는지에 대해서도 알게 되었다. 내가 앞으로 하고 싶은 IT와 음악의 융합에도 한 발짝 더 다가선 느낌이 들었다.

Contents
  1. 1. 강의
  2. 2. 팀 프로젝트
  3. 3. 소감