멘토지원
파트너스
현직자 클래스
멘토 찾기
Best 질문답변
멘토님, 데이터 엔지니어링 어떤 책을 추천하시나요?
Kakao Mobility · Data Engineering Team
약 3년 전
💬 멘티의 질문


안녕하세요. 멘토님. 저는 중소 빅데이터 실에서 데이터 엔지니어로 일하고 있는 개발자입니다. 

 

처음부터 데이터 엔지니어로 시작한 건 아니고요, 웹 개발을 3년 정도 하다가 데이터 기반으로 의미있는 결과를 도출하는 과정이 흥미로워 올해 데이터 엔지니어로 전향했습니다. 

 

멘토님께 데이터 엔지니어로서 미래와 학습 로드맵에 대하여 고민이 있어 조언을 구하고자 합니다. 지금 회사는 이미 CDH기반으로 필요한 부분이 구축되어 있고요. 저도 CDH환경과 도메인에 적응하면서, 맵리듀스, YARN 등 업무에 필요한 최소한의 하둡 지식만 익혔습니다. 그런데, 이렇게 계속 시간이 흐르면 엔지니어로서 성장이 없을까 고민이 돼 좀 더 깊이 있는 공부를 해볼까 고민하고 있습니다. 


©️Dominik Malinowski

 

제 로드맵은 책 "시작하세요 하둡 프로그래밍"  시작으로 하둡 에코시스템, ETL 환경을 구축해 보려는데요. 그런데 아직 데이터 엔지니어는 보통의 개발보단 공부를 어떻게 하여야 하는지 명확하지 않은 것 같습니다. 

 

멘토님께서는 처음 데이터 엔지니어를 위해 어떻게 공부하셨는지, 어떤 책으로 공부하셨는지 조언해 주신다면 앞으로 공부하는 데 큰 도움이 될 것 같습니다. 긴 글 읽어 주셔서 감사합니다.

💬 Torres Woo 멘토의 답변


안녕하세요. 멘티님. 저도 현업에서 느낀 게 데이터 엔지니어로서의 커리어가 딱 정해져 있는 건 아닌 것 같습니다. 처음엔 저도 웹 개발, 서버개발, 인프라 운영 등을하다가 지금은 Data Pipeline 관련 업무를 많이 하고 있네요.

 

CDH기반으로 완료가 되었다면, 이제 다양한 컴포넌트를 사용해서 Data Pipeline를 구축할 수 있는 좋은 기회라고 생각합니다. 물론 이것저것 기술을 선택할 때 회사에서 겪는 문제와 상황에 맞게 선정해야 하겠죠. 

 

저는 하둡 에코 시스템 뿐만 아니라 다른 여러 다양한 시스템을 생각해 보셨으면 좋겠습니다. 아래는 제가 추천해 드리는 책이에요. 

 




실시간 처리, 데이터양이 엄청나지 않다면, Kafka + Elastic Stack으로 구축하실수도 있고요. 완전히 실시간으로 대용량 스트림 처리가 필요하다면 Kafka + Flink 조합으로 구축할 수 있겠죠. 배치 파이프라인이라면 Hadoop + Hive + Spark + workflow(airflow, luigi 등등) 와 같이 하둡 기반에 분산 처리 엔진이 필요할 수 있습니다.

 

문제 상황에 맞게 다양한 기술을 조합해서 구축하고 설계하는 게 중요하다는  생각이 듭니다. 저는 각각의 컴포넌트 (kafka, Elasticsearch, Spark, Hive, Hadoop, Flink..)의 원리를 공부하는것과 같이 Data Pipeline을 설계하는 다양한 회사의 레퍼런스자료도 많이 찾아봤답니다. 그러면서 실무에 비슷한 문제 상황이 왔을 때 참고해서 구축해봤습니다.

 

몇 가지 책 추천과 제 경험을 말씀드렸는데요. 도움이 될지 모르겠네요!. 더 궁금한 거 있으면 질문 주세요. 감사합니다.  


Torres Woo 멘토
Kakao Mobility · Data Engineering Team
IT개발/데이터
일과 삶의균형을 중요시 생각하는 개발자.
빅데이터분석. 대용량 트래픽처리. 백엔드 서버개발. 아키텍처링.
안녕하세요. 현재 카카오, 데이터 엔지니어링 팀에서 개발자로 일하고 있습니다.
요즘 빅데이터, 데이터 분석 등 데이터 관련 키워드가 핫한 주제로 떠오르고 있습니다.
현업에서 데이터 엔지니어로 일하면서 여러가지 생각이 드는네요.
https://www.linkedin.com/in/torreswoo/
제가 경험한 것들이 다른 분들에게 도움이 될 수 있다면 좋겠습니다 :)
같은 직무를 다룬 글
IT개발/데이터
약 1달 전
인기 있는 글
연구/설계
약 5년 전