4월, 2017의 게시물 표시

Deeplunch팀의 Kaggle Data Science Bowl 도전기(1) - 케글 도전 팁

이미지
저희 Deeplunch 팀은 카이스트에서 일주일에 한번씩 딥러닝 논문 리딩을 하던 딥러닝 초보들입니다. 점심을 함께 먹으면서 논문 품앗이 하는 평화로운 모임이죠.   Data Science Bowl 2017, 100만 달러의 입신양명의 길 어느날 케글에서 큰 대회가 열린다고 세상이 떠들썩(?) 해졌습니다. 저희는 처음엔 각자 바쁜 삶에 치여 소 닭보듯 흘려 넘겼죠. Data Science Bowl (줄여서 DSB)은 환자의 폐암 여부를 찾는 대회입니다. 하지만 트레이닝 데이터에는 종양의 위치에 라벨링이 되어있지 않았습니다. 단지 폐암 환자인지 아닌지만 표지 되어 있습니다. 가만보니 저희 스터디원 중 한 형님이 의사셔서 종양에 라벨링을 하면 유리할 것 같아서 3월초에 늦게나마 스터디원 중 3명이 팀을 만들어 도전하게 되었습니다. 결론을 말씀드리면, 저희는 개인보드 0.52197로 전체 41위 (상위 2%) 에 해당되지만 그 점수를 공개 보드에 올리지는 못 했습니다. 대회를 참가해보니 경험이 없어서 실수도 하게 되고, 저희가 겪은 실수를 다른 한국팀들도 비슷하게 겪는 것 같습니다. 케글에서의 한국팀의 선전을 바라며 저희가 경험한 몇가지 팁을 올려봅니다. TIP 1. 추가 데이터를 더 찾아내라! 케글 대회에서도 학습에 사용되는 데이터는 제한적입니다. 딥러닝은 많은 데이터를 사용해야 성능이 좋아지기 때문에 추가 데이터 확보는 성능에 큰 영향을 미칩니다. 이번 DSB 2017 대회는 1차, 2차로 나눠져 평가가 진행되었습니다. 1차에서는 약 1600여명의 데이터가 주어졌습니다. 그 중 폐암환자는 1/4 정도였고, 트레이닝 데이터에서 나온 종양 패치는 약 400개 정도였습니다. 종양 데이터가 많이 부족했기 때문에 케글의 커뮤니티에서 사람들이 많이 사용하는 LUNA (폐에서 종양을 찾는 대회) 데이터를 추가로 사용했습니다. 저희는 여기서  크기가 크고 악성이 확실한 데이터를 선별하여 학습에 사용하였지만 그 수가