본문 바로가기
리뷰/도서

파이썬 라이브러리를 활용한 텍스트 분석 - 한빛미디어

by Remover 2023. 3. 22.
반응형

 

https://www.hanbit.co.kr/store/books/look.php?p_code=B8501475551 

 

파이썬 라이브러리를 활용한 텍스트 분석

분석하려는 텍스트에 맞는 처리 기법을 소개하는 도서로 실제 모범 사례를 기반으로 상황에 맞게 설계한 텍스트 전처리 파이프라인 구축, N-그램 분석, 텍스트 벡터화 등 다양한 전략과 그때 필

www.hanbit.co.kr

 

이번에 읽게 된 책은 '파이썬 라이브러리를 활용한 텍스트 분석' 입니다.

한창 ChatGPT로 뜨거운 이때, 좋은 타이밍에 읽게 된 책인 것 같습니다.

 

책에서는 GPT에 관한 언급은 없지만 GPT 또한 해당 분석들을 거쳐서 완성된 것이 아닐까 하는 생각을 하게 되었습니다.

 

책은 3단계로 분리되는 것 같다는 느낌을 받았습니다.

- 1~4: 기초 설명 및 데이터 수집

- 5~9 : 텍스트 분류&요약

- 10~13 : 텍스트 분석

 

간단하게는 3개의 파트로 볼 수 있다고 느꼈습니다.

 

 

책의 장점

- 데이터의 수집부터 분류, 요약, 분석 등 다양한 부분을 간단하게 설명하고 있음.

- 책 자체가 읽기 편한 구조로 되어 있음. 소스코드가 깔끔하게 정리되어 있어서 가독성이 좋음.

- 다양한 텍스트 분석 기법들을 책을 통해 배울 수 있고, 독자가 직접 구현해볼 수 있도록 소스코드 제공.

 

 

리뷰

3장에서는 웹 크롤링을 통해 텍스트를 수집하는 방법에 대한 내용이 나옵니다.

텍스트 분석에 필요한 데이터를 모으는 과정이기 때문에 생각보다 상세하게 소스코드를 제공하고 있습니다.

11장에서는 텍스트의 감정분석을 진행하면서 아마존 고객 리뷰 데이터를 사용하며 분석을 진행합니다.

한글로 된 데이터가 있었다면 좋겠지만 해당 데이터를 제공하는 곳이 없을것으로 생각되기도 했습니다.

나중에 데이터를 모은다면 직접 감정분석을 돌려보는 것도 좋을것 같습니다.

 

총평

 

분석이보다 보니 책이 생각보다는 어렵습니다.

예제들이 영어로 되어있어서 그런지 모르지만 데이터를 분석하는것보다 데이터가 어떤 의미를 가지는지를 스스로 이해하는게 어려웠습니다.

 

한글로 데이터 분석을 해보기 위해 데이터를 조금씩 수정중이지만 한글에는 다른 분석기들이 많이 있으니 알아보면 좋겠다는 생각도 했습니다.

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

댓글