데이터 사이언티스트가 되기 위해 필요한 두 가지! - 분석과 엔지니어 역량

로그인

멘토지원

파트너스

홈

현직자 클래스

멘토 찾기

Best 질문답변

#IT개발/데이터 #스펙

데이터 사이언티스트가 되기 위해 필요한 두 가지! - 분석과 엔지니어 역량

멘토

IT개발/데이터

약 4년 전

💬 멘티의 질문

안녕하세요. 통계학과를 졸업하고 현재 군복무 중인 멘티입니다. 당장 다음 주가 전역인데, 빅데이터 관련 분야에서 커리어를 쌓아가고 싶어요.

ⓒREDPIXEL.PL

지금은 캐글 스터디¹⁾를 시작했고, 공모전을 찾아보는 중입니다. 하지만 확신이 없습니다. 멘토님이 생각하기에 제가 빅데이터 관련 일을 하기 위해 어떻게 준비하는 것이 좋을까요?

또한, 학사만으로는 전문성을 갖추는 게 어려워 산업공학 석사도 고민하고 있는데, 빨리 경력을 쌓는 것이 좋을지 대학원을 졸업하고 취업하는 것이 좋을지 판단하기 어렵습니다. 멘토님이 현명한 판단을 도와주신다면 정말 감사하겠습니다. 그럼 답변 기다릴게요!

1) 캐글 : 2010년 설립된 예측 모델 및 분석 대회 플랫폼으로 2017년 구글에 인수되었다. 기업이나 단체에서 데이터와 해결과제를 캐글에 등록하면 사람들은 누가 더 이 문제를 잘 해결하는 모델을 만드는지 경쟁한다. 캐글을 통해 인공 지능 및 머신 러닝에서 핵심이 되는 질 좋은 데이터를 손쉽게 구할 수 있다

💬 이규남 멘토의 답변

안녕하세요 멘티님. 질문 잘 읽었습니다. 답변에 앞서 희망 진로를 좀 더 구체적으로 생각하시면 좋겠다는 말씀드리고 싶어요. 빅데이터 관련 직업에도 종류가 있기 때문에 막연히 빅데이터라 정하는 것보다 목표를 좁히는 것이 좋습니다.

제가 데이터 사이언티스트로 일하고 있으므로 멘티님도 사이언티스트를 원한다는 가정하에 답변을 시작하겠습니다.

ⓒOlekStock

데이터 사이언티스트, 필요한 두 가지 역량
사람마다 정의가 다를 수 있지만, 제가 생각하는 데이터 사이언티스트는 데이터 분석과 엔지니어 역량을 모두 갖춘 사람입니다. 보다 자세하게 말하자면, 분석 역량과 함께 서비스 서빙을 위한 엔지니어 역량을 모두 보유한 직업이라고 할 수 있죠.

그럼 분석과 엔지니어, 두 가지 역량을 갖추기 위해 어떤 준비를 해야 할 지 나눠서 말씀드릴게요.

먼저 분석 역량은 논문을 이해한 뒤 새로운 방법을 제시할 수 있고, 논문의 알고리즘을 구현하는 능력이라고 생각합니다.

이는 결국 영어와 수학, 그리고 알고리즘 지식과 코딩 실력으로 요약할 수 있는데요. 영어는 기본으로 갖추셔야 하고, 아직 준비하는 단계이니 수학을 열심히 공부하시길 바랍니다.

또한, 알고리즘 지식을 공부하는 데는 따로 왕도가 없습니다. 그냥 차근차근 하나씩 익히셔야 해요. 코딩 역시 많이 해보면서 경험을 쌓으면 됩니다. 그래서 지금 하고 계신 캐글 스터디는 굉장히 좋은 선택이에요.

분석 역량 : 영어, 수학, 알고리즘 지식, 코딩 실력

ⓒAfrica Studio

두 마리 토끼보다 한 가지에 집중하기
다음으로는 엔지니어 역량을 이야기해볼까요? 엔지니어 역량을 닦기 위해선 인프라를 포함해 서비스가 제공되는 방법을 공부해야 합니다. 서비스 서빙 환경은 회사마다 다르므로 추후 입사를 하고 나서 배우면 될 문제이지만, 인프라는 지금도 공부할 수 있어요.

아시다시피 빅데이터는 용량이 매우 크므로 분산처리가 필수입니다. 따라서 SCALA¹⁾를 공부하거나, 하둡²⁾과 스파크 환경³⁾에서 분석하는 경험을 쌓으시길 바랍니다.

엔지니어 역량 : 인프라와 분산처리 시스템 공부

또한, 서비스를 서빙할 때 데이터 유실을 막기 위한 카프카나, 실시간 처리를 위한 스톰을 공부하시면 좋습니다. 그리고 최근에 인기 있는 도커⁴⁾나 쿠버네티스⁵⁾를 공부하는 것도 추천합니다.

하지만 현실적으로 분석과 엔지니어, 두 가지 역량을 모두 잡는 건 어렵습니다. 따라서 한 가지를 메인으로 잡고, 나머지는 평균적인 실력으로 키우는 것을 목표로 삼으세요. 다만 멘티님께서 캐글을 하고 계시니 분석 역량을 더 중요하게 공부하시면 좋을 것 같습니다.

ⓒArtem Samokhvalov

대학원 진학을 추천합니다
단도직입적으로 대학원에 진학하는 것을 추천합니다. 지금 취업을 준비하면서 제가 앞서 말씀드린 지식을 모두 공부하기에는 시간이 부족할 겁니다. 그래서 석사를 하시면서 깊게 파보는 방법을 권장하고 싶어요.

멘티님이 대학원에 진학할 수 있는 현실적 여건이 되는지는 잘 모르지만, 데이터 분야에서 실력을 쌓으려면 대학원 진학이 좋은 전략이라는 것을 알려드려요. 파트타임 석사를 해도 열심히만 할 수 있다면 저는 괜찮다고 생각합니다.

궁금하신 점이 풀리셨나요? 더 궁금한 것이 생기면 다시 질문해주세요. 그럼 열심히 공부하시길 바랍니다.

1) SCALA : '확장 가능한 언어(SCAlable LAnguage)'의 약자로 사용자의 요구에 따라 얼마든지 확장할 수 있는 언어라는 뜻이다. JVM 플랫폼에서 함수형 프로그래밍과 객체 지향 프로그래밍을 동시에 지원하기 위한 목적으로 만들어졌다

2) 하둡 : 하둡(Hadoop)은 대량의 자료를 처리할 수 있는 대규모 컴퓨터 클러스터에서 동작하는 분산 애플리케이션을 지원하는 오픈 자바 소프트웨어 프레임워크다

3) 스파크 : 하둡이 나오고 시간이 흐른 뒤 여러 단점이 나타나기 시작했고, 대안으로 새롭게 등장한 기술이 바로 아파치 스파크다. 하둡과 마찬가지로 빅데이터 워크로드에 주로 사용되는 분산처리 시스템이며 오픈소스다

4) 도커 : 리눅스 재단이 발표한 ‘2014 가장 인기 있는 클라우드 오픈 소스’에서 2위를 차지한 도커는 리눅스 컨테이너 기술을 자동화해 쉽게 사용할 수 있게 하는 오픈소스 프로젝트다