본문 바로가기
리뷰/도서

[리뷰] 견고한 데이터 엔지니어링, 데이터 파이프라인 설계와 구축의 핵심 원칙

by Remover 2023. 8. 21.
반응형

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

이 책은 데이터 엔지니어링에 대해 다루고 있다.

전체적인 엔지니어링 환경 뿐 아니라 수명주기와 아키텍처 설계에 대해서도 다룬다.

 

목차를 보면 크게 3개의 캡터로 나누어져있다.

- 1. 기반 구축

- 2. 엔지니어링 생명주기

- 3. 보안

 

엔지니어링 개요 > 수명주기 > 설계 > 기술 선택 > 데이터 생성 > 저장 > 수집 > 변환 > 서빙 > 보안

순서로 설명하고 있다.

가장 재미있게 봤던 부분은 챕터4. 데이터 엔지니어링 수명주기 전체에 걸친 기술 선택 부분이었다.

운영비용과 기회비용에 따라 기술 선택에 있어서의 조언을 볼 수 있는 챕터였다. 실무진에게 도움이 많이 되는 챕터가 아닐까 싶다.

 

- 장소: 온프레미스, 클라우드, 하이브리드 클라우드, 멀티 클라우드

- 구축, 구매: 오픈소스와 구매

- 모놀리식와 모듈식

- 서버리스와 서버

 

각각에 맞춰서 설명과 조언이 존재한다. 상당히 꼼꼼하면서도 조언을 통해 기술을 선택할 수도, 기술에 대한 고민을 해볼 수 있는 기회를 주는 책이다.

 

매일 새로운 기술과 패턴이 등장하는 상황에서 올바른 기술을 선택하기란 쉬운 일이 아니다. 오늘날은 아마 기술을 평가하고 선택하기에 역사장 가장 혼란스러운 시기일 것이다.

 

챕터4를 지나 5부터는 데이터의 생성부터 서빙까지 생명주기를 다룬다.

앞서 첨부한 이미지를 차근차근 설명하는 구간이다. 생명주기에 대해서만 설명할 것 같지만 생명주기 내에 존재하는 각종 고민들을 서술한다. 

원자적 트랜잭션, OLAP, OLTP, CDC 등 다양한 데이터 엔지니어링 관점의 개념들을 확인할 수 있다.

 

그렇게 자세한 내용을 다루는 책은 상당히 오랜만이다. 

책을 보다보니 '데이터 중심 애플리케이션 설계' 와 같이 봐도 좋겠다고 생각이 드는 책이다. 

이 책을 이어 꼭 읽어보면 좋은 책이 되지 않을까 생각이 된다.

 

책 내용이 어렵긴하다. 다양한 내용들을 다루고 있기 때문에 처음부터 차근차근 이해하고 넘어가지 않는다면 뒤로 갈수록 내용을 이해하는데 어렵게 느껴질 것이다. 그러나 책을 천천히 이해한다면 책을 다 읽을 때 쯤에는 데이터 엔지니어링에 대한 많은 개념들을 이해할 수 있을 것이다.

 

댓글