책 리뷰

[리뷰] 그것이 R고 싶다.

seungdols 2018. 9. 9. 14:05


[리뷰] 그것이 R고 싶다 - 한빛미디어

책 소개

데이터 분석가는 단순히 R 언어를 아는 것을 넘어 업계에서 표준처럼 쓰이는 각종 패키지에도 능통해야 한다. 다양한 기능을 GUI로 제공하는 R스튜디오 사용법을 익히는 것도 중요하고, 클라우드에 분석 환경을 구축하고 웹 앱을 만드는 법도 알아야 한다. 이 책은 실무에서 많이 사용하는 R스튜디오 기능과 각종 패키지 중심으로 R을 학습할 수 있게 쓰였다. 실무 친화적으로 데이터 분석과 시각화 기법을 소개하고, AWS 등 클라우드 환경과의 연동 방법도 설명한다.

나의 리뷰

그것이 R고 싶다라는 책은 R 스튜디오에서 클라우드까지 데이터 과학자가 알아야 하는 R 패키지에 대한 활용법을 주로 설명한 책이다.

일단 관심 있게 봐야 할 점은 Chapter4. 데이터 핸들링 그리고, Chapter 5. 데이터 가져오기 부분인데, 공공 데이터를 활용하는 점이 나는 좋게 생각 했다. 실제로 데이터를 어디서 구하는지가 초기 데이터 사이언티스를 공부하는데 제일 큰 문제이기도 하다.

크롤링을 통해 데이터를 수집해도 되지만, 그건 어디까지나 개발을 어느정도 잘 하는 개발자의 이야기이고, 그렇지 않다면, 잘 정제 된 데이터 셋을 구하는게 쉽지 않다. 그런데, 우리에게는 그나마 활용할 수 있는 데이터가 공공 데이터 포털이다. JSON포맷 데이터도 점점 많아지는 추세라서 활용하기 쉽다.

물론, API자체가 XML응답만 지원하는 경우가 대다수지만, 그정도 컨버팅을 하는 건 쉬우니까 말이다.

그런 좋은 데이터를 찾을 수 있는 곳을 알려주는 것만해도 좋은데, 서울 열린 데이터 광장이라는 곳도 소개시켜주면서, 각각 데이터 응답 포맷에 맞는 활용을 소개한다. 그리고 제일 중요한 것은 데이터를 잘 가져오는 것도 중요하지만, 잘 활용할 줄 알아야 한다.

데이터 사이언티스는 어떠한 데이터 집합 속에서의 Insight를 찾는 일이라 생각한다. 그래서 통계, 분석에 관해서 공부를 많이 해야하는데, 이 책은 그 흐름을 자연스러운 연결지어두었다.

그리고 요즘은 데이터, 정제, 분석, 시각화 순으로 이루어진다고 해도 과언이 아니다. 당연히 R 스튜디오도 시각화를 지원한다. 강력한 라이브러리인 ggpot2을 통한 시각화하는 방법을 소개한다.

R을 배우고 싶다면, 이 책을 입문서로 해도 좋을 것 같다. 특히, 다양한 클라우드 서비스에서 활용하는 방법까지 소개한다. 내가 생각하기에 요근래의 트렌드는 클라우드를 최대한 활용하는 것이다.

그것을 만족한 책이다.


반응형