[리뷰] 스파크 완벽 가이드

책소개

스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것

오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다.

스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴봅니다.

이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있습니다. 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있습니다.

www.hanbit.co.kr/store/books/look.php?p_code=B6709029941

스파크 완벽 가이드

오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의

www.hanbit.co.kr

리뷰

이번에 리뷰하게 된 책은 '스파크 완벽 가이드' 입니다.

데이터 분석을 위해 Apache Spark를 많이 사용하는데요. 물론 제가 근무하는 네이버에서도 많이 사용하고 있습니다. 저 또한 분석을 위해 사용하고 있는 만큼 책이 굉장히 두껍습니다. 그만큼 많은 데이터를 다루는 방식에 여러가지가 있기 때문입니다.

이 책은 2.x를 기반으로 하고 있습니다. 아쉽게도.

Spark의 최신 버전은 3.x 버전이고 2.x와는 다르게 개선된 내용들이 많으니 3.x DOC(spark.apache.org/news/spark-3-0-1-released.html)를 확인해보시는것도 좋을 것 같습니다.

스파크의 내용을 자세하게 다루고 있는 책입니다. 두꺼운 만큼 상세하게 잘 설명되어 있는데요. 제가 가장 마음에 들었던 부분은 설치하는 부분에 있어서 Dockerfile을 제공하고 있다는 점입니다. 스파크 설정과 기타 등등을 한꺼번에 해주기 때문에 설치가 편리했습니다. 최근에는 Windows에서도 WSL2를 지원하면서 Docker에 사용이 간편해졌으니 어렵지 않게 설치하실 수 있을 것이라고 생각합니다.

사실상 스파크는 배치 혹은 스트리밍한 데이터를 처리하기 위해 많이 사용합니다. Log를 집계하여 계산하는 영역, Batch를 통해 데이터를 집계하는 등 두 가지 처리가 많이 일어나고 구조적인 내용부터 천천히 설명을 시작합니다.

코드는 Python도 존재하지만 scala로도 소스가 존재합니다. 언어를 두가지나 지원해주는 점에서 상당히 배려심 있는 책이라고 생각이 들었습니다. 저 같은 경우에는 Scala로도 작성하지만 Java로도 작성해서 사용하기 때문에 익숙하신 언어로 공부하시면 될 것 같네요. 배려심이 많은 만큼 책이 두꺼웠단 생각이 듭니다.

스파크의 기본 문법에 대한 설명, RDD를 시작하여 SQL, parquet 등 여러가지 기본적인 내용들을 상세하게 설명해줍니다. SELECT, UPDATE 등 스파크는 기본적으로 SQL 문처럼 사용할 수 있는데요. DataSet, DateFrame 구조도 상세하게 설명하고 있습니다.

스파크의 강점 중 하나는 머신러닝에 사용할 수 있다는 건데요. 데이터를 처리하는 과정에서 분산처리를 활용하는 것은 시간 철약에 큰 역할을 하기도 하죠. 머신러닝에 관련된 내용은 파트4부터 나옵니다. 장으로는 25장부터 시작됩니다. 머신러닝에 있어서 가장 중요한 것은 데이터 입니다. 데이터 전처리를 시작으로 피처 엔지니어링, 분류, 하이퍼 파라미터, 회귀, 비지도 학습에 대한 내용들을 다루고 있습니다. 최근에는 텐서플로우를 많이 사용하지만 데이터가 정말 크다면 스파크를 통해 데이터를 분석해보는 것도 재미있을 것 같습니다.

- 한빛미디어로부터 책을 지원 받아 작성 된 리뷰 입니다.

'리뷰 > 도서' 카테고리의 다른 글

혼자 공부하는 자바 스크립트 - 한빛미디어 (0)	2020.12.31
자바 개발자를 위한 97가지 제안 - 제이펍 (0)	2020.12.27
[리뷰] '모던 스타트업' 팀 생산성을 높여주는 21가지 도우와 서비스 (0)	2020.09.27
[리뷰] 실전 자바 소프트웨어 개발 (0)	2020.08.22
[리뷰] 엔터프라이즈 자바 마이크로서비스 (0)	2020.07.03

Remover

[리뷰] 스파크 완벽 가이드

책소개

목차

리뷰

'리뷰 > 도서' 카테고리의 다른 글

댓글

티스토리툴바

[리뷰] 스파크 완벽 가이드

책소개

목차

리뷰

'리뷰 > 도서' 카테고리의 다른 글

관련글

댓글

티스토리툴바